1. 개요
Simpson's paradox'[math(a_1/A_1 > b_1/B_1)] 이고 [math(a_2/A_2 > b_2/B_2)]' 이라고 반드시 '[math((a_1+a_2)/(A_1+A_2) > (b_1+b_2)/(B_1+B_2))]' 인 것은 아니다. 즉, 각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다는 의미이다. 영국의 통계학자 에드워드 심슨이 정리한 역설로(심프슨의 역설이라고도 한다) 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다 일어나는 오류이다.
2. 예시
예를 들어 공학부에서 900명의 학생을, 식품영양학과에서 100명의 학생을 모집하는 어느 대학교에 남학생 1,000명과 여학생 1,000명이 지원했을 때, 지원자 수와 합격자 수가 다음과 같다고 하자.- 공학부에서 합격자 비율
지원자 | 합격자 | 합격률 | |
남학생 | 900명 | 720명 | 80% |
여학생 | 200명 | 180명 | 90% |
여학생 합격률이 남학생 합격률보다 높다.
*식품영양학과에서 합격자 비율
*식품영양학과에서 합격자 비율
지원자 | 합격자 | 합격률 | |
남학생 | 100명 | 10명 | 10% |
여학생 | 800명 | 90명 | 11.25% |
이렇게 두 과 모두 여학생 합격률이 남학생 합격률보다 높다. 이제 전체 합격률을 알아보자.
지원자 | 합격자 | 합격률 | |
남학생 | 1,000명 | 730명 | 73% |
여학생 | 1,000명 | 270명 | 27% |
각 모집단위에서 여학생이 남학생보다 높은 합격률을 보였으므로 전체에서도 여학생이 남학생보다 높은 합격률을 보일 것으로 기대하기 쉬운데, 확률에서는 이러한 논리가 적용되지 않는다.
3. 원리
전체 통계를 낼 때 심슨의 역설이 발생한다면 중요한 변수가 무시되었기 때문이거나, 각 부분의 샘플 크기나 비율이 다른데도 가중치를 주지 않았기 때문일 수 있다. 예시에서 숫자를 잘 보면 공학부보다 식품영양학과의 합격률이 낮았으며, 남녀의 성비가 달랐다. 즉 공학부와 식품영양학과 모두 여학생의 합격률이 높았지만, 여학생의 경우 합격이 쉬운 공학부(200명)보다 합격이 어려운 식품영양학과(800명)에 지원자들이 집중되었기 때문에 전체 합격률이 낮았던 것이다.EBS 지식프라임에서 이 소재에 대해 다룬 적이 있다.
4. 주의사항
왜곡이라는 말을 썼지만, 숫자를 조작한 것은 아니다. 예시에서 두 과의 지원자와 합격자를 합해보면 알 것이다. 단지 고려해야만 하는 변수를 무시했을 뿐이다. 즉 통계의 함정의 일종이라 할 수 있다. 이는 통계를 정반대로 해석해 잘못된 의사결정을 할 위험도 있을 뿐더러, 어떤 목적을 위해 의도적으로 무시하는 경우에는 더 심각하다 하겠다.5. 관련문서
[1]
[math(a/x=b/y=c/z)]일 때 [math(a/x=b/y=c/z=(a+b+c)/(x+y+z))]