통계의 함정

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 · 자료 시각화		도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px"	<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경	과학적 방법
기반	수학( 미적분학 · 선형대수학 · 미분방정식) · 통계학( 수리통계학 · 추론통계학 · 기술통계학)
연구· 탐구	논증( 귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론( 법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계( 창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론	합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성( 연구노트)
	통계적 방법	혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형( 구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정· 물리량	물리량( 물리 상수 · 무차원량) · 차원( 차원분석) · 측도 · 단위(단위계( SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차( 불확도 · 유효숫자 · 과학적 기수법)
실험	실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험( 수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
연구윤리	뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절( 표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문· 과학 공동체	소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식( 초록 · 인용( 양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론			}}}}}}}}}

1. 개요2. 원인

2.1. 너무 작은 표본에 기초한 결론2.2. 무응답 표본2.3. 작위적인 표본을 통해 내린 결론2.4. 매우 큰 표본에서 나타난 소수의 사례를 과대평가2.5. 일회성 조사를 통해 내린 결론2.6. 잘못된 조사 방법2.7. 잘못된 인과관계 추론2.8. 집단의 특성을 개인에게 적용2.9. 의도치 않은 편향2.10. 의도적 편향2.11. 통계적으로 의미 있는 모든 분석에 현실적인 의미 부여2.12. 오차범위2.13. 시각적 도해를 활용한 왜곡2.14. 백분율의 배수 차이에 너무 큰 의미를 부여2.15. 철저한 검사 및 조사에 의해 통계에 잡히는 사례가 증가하는 경우

3. 관련 문서

1. 개요

많은 사람들이, 심지어 통계학자마저 통계의 함정에 빠져 잘못된 판단을 내린다. 기본적으로 통계를 통해서는 확률적인 결론밖에[1] 내놓을 수 밖에 없고, 또한 다루는 범위가 커질수록 통제할 수 없는 통제 변수가 수없이 늘기 때문이다.

게다가 굳이 오용이 아니더라도 특정 집단이 통계를 멋대로 이용해 억지 주장을 펴는 경우도 많다.[2] 물론 논리적으로 올바른 통계적 추론의 경우에도 결과를 왜곡할 수 있는 편법은 얼마든지 있다. 통계 관련 종사자들 사이에서는 '원하는 결과는 그 어떤 결과라도 만들 수 있다.'는 것이 공공연한 비밀이다. 반대로 그러한 오용 사례를 접하고는 통계에 대한 무조건적인 불신에 빠져 무작정 표본의 수가 적다며 트집잡고 본다거나, 마음에 들지 않는 결론을 제시할 때는 밑도 끝도 없이 조작되었다고 주장하는 경우도 있다.

다음은 대표적인 통계의 논리적 함정이다. 개중에는 ‘ 거짓말은 하지 않는다’에 들어맞는 것들이 많이 있어서 아무리 조심하더라도 낚이게 되며 낚여서 피해를 보아도 어쨌든 거짓말이 아니라서 따지기도 힘들다. 그러니 어떤 글이나 영상에서 통계가 인용되면 저 오류들을 항상 생각해 두고 면밀히 봐야 한다.

2. 원인

2.1. 너무 작은 표본에 기초한 결론

아무도 빠지지 않을 것 같지만 실제로는 가장 많은 사람이 빠지는 통계의 함정이다. 어렸을 때 우유를 마시면 키가 큰다는 주장에 대해 "나는 우유 매일 마시고도 키가 작아. 그거 거짓말이야."와 같은 소리를 하는 사람이 있다. 실제로 우유와 키가 별 상관이 없다는 연구 결과가 많지만, 진위 여부와는 무관하게 본인의 경우만으로는 이를 판단할 수 없다. 이 말은 자기가 우유를 마시지 않았더라면 지금보다 키가 더 작았을 수도 있었다는 반론에 반박할 수 없기 때문이다.

유의 수준이란 통계 분석에서 제 1종 오류를 범할 가능성의 상한을 뜻하는 것으로서, p (probability)값으로 표기한다. 여기서 제 1종 오류란 '실제로 효과가 없는데 결과상 효과가 있다고 나오는 오류'를 일컫는 것으로, 귀무가설을 거짓으로 기각하게 된다. 가장 문제가 되는 오류로 일반적으로 학계에서는 이를 5% 미만으로 통제하고 있다. 바꾸어 말하면, 실제 효과가 없는데 효과가 있다는 결론이 도출될 가능성을 5% 미만으로 묶어두어야만 결과의 유효성을 인정하겠다는 것이다.

검정력(1-β)이란 실제로 효과가 있는 것을 통계 분석을 통해 효과가 있다고 증명할 수 있는 힘으로, 잘못된 귀무가설을 기각하는 능력을 말한다 일반적으로 검정력은 0.80(80%)로 설정하고, 그 이상의 검정력을 요구할 경우 더 많은 수의 연구 표본수를 필요로 한다. 연구 표본수가 작아지면 '실제로 효과가 있지만 결과 상 효과가 없다는 결론을 도출'하는 제 2종 오류(β)의 가능성이 높아지며 검정력은 감소하게 된다. 연구자들은 제 1종 오류를 5%로 유지하면서 검정력을 최대화하는 통계 기법을 사용하고자 한다.

1종 오류와 2종 오류에 대한 영상

다만 p-값만 통제된다고 결론이 맞는 것은 아니며 자세한 건 p-해킹과 큰 수의 법칙 문서 참조.

이는 논문계 자체의 문제와도 연관이 되는데, 논문의 결과로 바라는 것은 대개 긍정되는 것[3]이기 때문에 부정된 결과는 무시되고 긍정되는 결과가 한번쯤은 나올 수도 있는 것이다. 시금치가 마약중독에 효능이 없다고 연구는 많이 했지만, 가치가 상대적으로 떨어져 발표는 되지 않고, 따라서 딱 한번 우연으로 시금치가 마약중독에 효과가 있다고 나오면 그것이 주목받게 되는 것이다.

2.2. 무응답 표본

검정력을 중점적으로 보는 조사 뿐만 아니라, 여론조사 같이 검정력과는 무관한 조사 방법에도 비슷한 함정이 적용된다. 어떠한 조사 방법이든 일단 응답이 되어야 통계에 집계되기 때문이다. 당연히 응답을 거부한 표본은 통계적으로 집계 자체가 될 수 없다. 이는 후술할 잘못된 조사 방법과도 연관이 있는데, 다른 사람에게 말하기 민감한 내용에 대해 조사하는 경우 거짓말을 할 가능성이 높아질 뿐만 아니라 응답 자체를 거부할 가능성 역시 높아지게 된다.

이 때문에 응답률이 지나치게 낮은 통계는 그 정확성이 상대적으로 떨어질 수 밖에 없으며, 이에 대해서는 심리학적 지식 등 통계학 밖의 지식을 동원해 어떻게든 보정해야만 한다. 암수범죄나 샤이 지지층 등이 발생하는 것도 바로 잘못된 조사 방법, 그리고 이로 인한 표본의 응답 거부에 있다.

2.3. 작위적인 표본을 통해 내린 결론

" 개그맨들은 아내가 다 미인이다. 김대희, 김준호, 정종철, 김학도 등을 보라"와 같은 주장을 자주 들을 수 있는데 이는 작위적인 표본에 의한 착각일 수 있다. 개그맨의 아내가 실제로 대부분 미인인지를 판단하려면 임의의 방법으로 공정하게 표본을 뽑아 확인해봐야 한다. 물론 진지하게 통계를 내려면 미인의 정의가 무엇인지 내려야겠지만.

인터넷 커뮤에 떠도는 자료들 중에 이러한 것이 특히 많은데 힙합 뮤지션 중에 면제자가 많다는 글이 그렇다. 이는 한국계 미국인처럼 애초에 표본에 넣을 수도 없는 부적절한 사례까지 무리하게 끼워 넣거나, 면제자들의 사례만을 골라서 넣었기 때문이다. 사실 찾아 보면 군대를 갔다 왔거나 군 복무 중인 사람들도 그 만큼 나올 수 있다.

패배한 판을 제외하면 승률 100%라는 드립도 이 예시에 해당하며, 출구조사가 사전투표자의 민심을 반영하지 못하는 것도 이에 해당한다.[4]

2.4. 매우 큰 표본에서 나타난 소수의 사례를 과대평가

표본의 크기가 매우 큰 경우 특이한 사례도 있기 마련이다. 대표적인 예시로, 로또 1등이 그렇다. 로또 1등에 당첨될 확률은 극도로 낮지만[5], 분명 1등 당첨자는 거의 매주마다 나온다. 이는 낮은 당첨확률 이상으로 매우 많은 사람들이 로또를 구입하고 있기 때문이다.

하지만 이와 같은 현상을 잘못 해석하여 일반화하는 경우가 꽤나 많다. "내가 월드컵 축구를 보기만 하면 우리나라가 진다"와 같은 주장을 하는 사람이 이런 경우이다. 월드컵 경기의 경우 수백만 명이 넘는 매우 많은 사람들이 경기를 보는 만큼, 그 중에는 자기가 볼 때마다 우리나라가 이기는 사람도 있고, 반대로 볼 때마다 우리나라가 지는 사람도 있을 것이다. 이는 결코 이상한 것이 아니다. 표본의 크기가 매우 크기 때문에 그 중에는 예외적이고 극단적인 사례가 적지 않은 확률로 나타나기 때문이다.

2.5. 일회성 조사를 통해 내린 결론

조사대상 시점의 개수가 작거나 불연속성이 클 경우[6]에는 시계열 분석을 통해 미래를 예측하는 데 한계가 있다. 단 하나의 시점(가령 1개년도의 자료)만으로는 시계열분석이라는 것 자체가 불가능하다.

2.6. 잘못된 조사 방법

일반적으로 다른 사람들에게 말하기 민감한 내용, 특히 정치, 종교, 성 관련 이슈를 조사할때는 얼굴을 보면서 하는 조사, 즉 공개적인 방식은 피하는게 좋다. 또한 폐쇄적이거나 쉽게 외압이 가해지는 환경 하에서도 설문을 피해야 한다(Response bias). 이런 방식 및 환경에서는 어떻게든 응답자가 (자기방어 기제로 인해) 거짓말을 할 수 밖에 없기 때문이다. 어떤 통계적 방법이든 표본이 거짓말을 하는 순간 투명성과 공정성을 잃어버리므로, 통계적 조사를 할 때에는 최대한 응답자가 진솔하게 응답할 수 있도록 조사 방법 및 방식을 강구해야 한다. 응답자를 직접 면접하는 것이 아니더라도, 필요한 수준의 통계 자료를 얻기 위해서는 돈, 시간, 인력이 소요되며, 여기에 접근 가능한 권한이 필요하다. 물론, 자료를 넘겨받는 과정에서도 자료 제공자가 자료를 왜곡할 수 있으므로, 이 경우에도 대비해야 한다. 이러한 과정을 거친다고 하더라도, 자신의 답변으로 인해 자신 혹은 자신이 속한 집단이 공격받거나 피해를 볼 가능성이 있다면 왜곡된 답변을 하기 때문에 정확한 자료를 내기 어려운 경우도 있다.

만약 당신이 서울역 광장에서 지나가는 사람들에게 "여기 음란물 보는 걸 좋아하는 사람 있습니까?"라고 크게 외친다면, 그것에 대해 "네"라고 대답할 사람은 백 명 중에 한 명도 되지 않을 것이다. 하지만 그렇다고 해서 음란물을 보는 사람이 1%도 되지 않는다고 판단할 수는 없다. 조사 방법이 잘못되었기 때문이다.
병영 생활 만족도 조사는 항상 90% 이상이 만족한다고 나온다. 문제는 이 조사라는 것을 아예 기명식으로 하거나 간부가 지켜보고 있는 상황에서 하기도 하고, 감시 없이 무기명으로 한다고 해도 불만족하다고 대답한 경우에 대해 필적 대조까지 하면서 그런 답을 한 사람을 색출해 내서 불이익을 주는 경우까지 있다. 그렇기에 이 결과만을 보고 "따라서 지금의 병영 생활은 더 이상 개선할 필요가 없다."는 결론을 내리는 것은 잘못된 것이 된다.
사내 직원 만족도 설문 같은 경우도 마찬가지. 5등급 설문에서 4만 나와도 관리자에게 문책이 가고, 3이 나오면 경을 친다. 서비스 기사가 만족도 조사에서 제발 10점 만점에 10점 달라고 애걸복걸 하는 것도 이 때문.
하나의 기업을 대상으로 한국의 기업문화와 사내 부조리에 대한 설문조사를 하고 싶다고 하자. 이걸 시행할 수 있는 권한을 가진 건 사장, 노조 간부, 정부 정도뿐이다. 일개 사원이 이런 걸 시행하려 들다 발각되면 잘린다.
성 취향 관련 통계를 낼 때, 동성애자는 스스로가 동성애자라고 밝히기 매우 어렵기 때문에 실제 동성애자의 수보다 축소되어 나올 가능성이 크다. 때문에 실제 환자의 성비(남성:여성 11:1 수준)과는 달리 HIV 보균자나 에이즈 발병률 통계에서 유의미한 왜곡(동성애자와 이성애자의 환자비율이 비슷한 것처럼 나온다)이 발생된다. 해당 이유때문에 동성애자와 이성애자의 에이즈 발병비중을 알아보기 위해 주로 남성 환자와 여성 환자의 비율을 통해 간접적으로 알아차리는 방식을 취한다.

2.7. 잘못된 인과관계 추론

상관관계는 인과관계와 무관할 수 있다. 더 직접적인 인과관계를 간과한 결과 잘못된 결론에 이르는 통계도 있을 수 있다.

명확하고 극단적인 예를 하나 들자면, 정크푸드의 대명사인 치즈버거를 자주 먹는 사람들이 오히려 암 사망률이 낮다는(?!) 터무니없는 통계가 있는데 사실은 암으로 죽기 이전에 심혈관 질환으로 죽어버리는 경우가 많아서 결과적으로는 암 사망자의 비율이 줄어든 것이다(...).

더 극단적인 사례로 '고속도로에서 안전벨트를 하지 않은 사람이 한 사람보다 부상 당할 확률이 낮다'가 있다. 안전벨트를 하지 않고 사고가 나면 부상이고 자시고 죽어버리기 때문에, 통계에는 '부상자'가 아니라 '사망자'로 처리되기 때문.

다른 예시를 들자면, '햄버거를 매일 적어도 하루 1끼 이상 먹는 사람이 시험 성적이 낮다'라는 통계도 비슷한 예일 수 있다. 이는 햄버거가 마치 두뇌활동에 악영향을 미치는 것처럼 보이는 통계이지만 실제로는 햄버거 등의 패스트푸드를 자주 먹는 사람은 식비에 쓸 돈이 적은 저소득층이거나 식사에 시간을 쓸 정도로 여유가 없는 사람일 가능성이 높아서 학업에 전념하거나 교육에 돈을 투자하기 어려웠기 때문에 낮은 성적이 나왔을 가능성이 더 높다. 따라서, 이와 같은 통계가 나오는 과정에서 비교집단의 소득수준, 학업시간 등을 동일하게 통제하지 않고서는 신뢰할만한 통계결과로 보기는 어렵다.[7]

2.8. 집단의 특성을 개인에게 적용

네덜란드 남자[8]의 평균키는 180cm가 넘는다. 대한민국 남자의 평균키는 173cm 정도이다. 하지만 한국 남자 중에서도 분명 네덜란드 남자의 평균키를 훨씬 뛰어넘는 장신들이 있고, 반대로 네덜란드 남자 중에서도 173cm보다 작은 사람들이 분명히 존재한다.

남녀의 경우에도 마찬가지다. 일반적으로 남자가 여자보다 운동 능력에서 크게 앞서지만, 남자와 1:1로 싸워서 제압할 수 있는 강인한 여자도 있고, 반대로 평범한 여자에게 맞아죽을 수도 있을 만큼 허약한 남성도 충분히 존재한다. 이를 무시하는 대표적인 사례가 독박병역. 개인별 신체 능력 검증 없이 오로지 성별의 일반적 특성만으로 병역 의무 부과 여부를 결정해버린다.

2.9. 의도치 않은 편향

정확하게 수치가 나온 경우에도, 이를 해석하는 방향이 의도적이지 않게 뒤틀림에 따라 얼마든지 통계가 왜곡될 수 있다. 가령 통계가 나온 시기가 시국과 연결되는 경우, 그 특정 시기에만 해석이 집중되고 정작 그 전의 시계열에 대해서는 신경쓰지 않는 식이다. 앞서 언급된 무응답 표본, 잘못된 조사 방법과도 연관이 있다.

1990년대까지만 해도 심장마비는 여성보다 남성에게 더 쉽게 발생한다는 것이 정설이었으나, 2004년에 발표된 연구에 따르면 이는 남성의 심장병 증상이 더 뚜렷하여 의사가 더 일찍 발견하기 때문에 빚어진 오해였다. 심장병은 오히려 25세 이상 여성의 사망 원인 중 첫 번째이다.[9]

2020년 인플루엔자 백신 접종자 집단사망 논란도 역시 의도치 않은 편향에 의한 왜곡이다. 안 그래도 상온 백신 접종 사태로 인해 의료에 대한 불안감이 높아진 상황에서, 하필 코로나19라는 시국이 얽혀 있어 언론의 관심이 극도로 집중된 상황이었다. 이러한 상황에서 "백신 접종자가 일정 기간 내에 사망하는 사례"가 발생하자마자 언론들이 앞다투어 부각하다보니 자연스레 백신과의 연관성으로 이어졌고 이것이 결국 백신 반대 운동에 불을 지피게 되었다. 하지만 실제 수치는 평년 수치와 비슷했고 각 사례들마저 전부 백신과는 상관없이 평소 기저질환이나 다른 사유로 사망에 이른 경우였다.
참고로 대한민국의 평균 일일 사망자 수는 대략 750명 정도로 집계되며, 2020년에 백신을 접종한 접종자 수는 1800만명에 육박하는 것으로 드러났다. 이는 대한민국 총 인구수의 약 36%에 해당하며, 평균적인 비율로 따져보아도 백신 접종자 중 사망자가 발생하는 것은 전혀 이례적인 일이 아니다.

반례로는 제2차 세계 대전 당시 미국에서는 차기 전투기의 생존성 강화 설계를 위해 피격 후 돌아온 전투기들을 조사했으며 동체에 피탄흔적이 남은 기체는 몇 없고 날개와 꼬리에 피탄이 집중되어있어 이 피탄부위들을 강화하면 생존성을 올릴 수 있다고 추측했으나, 수학자 에이브러햄 왈드(Abraham Wald)는 동체를 피탄당한 비행기는 돌아올 수 없었다는 것을 파악, 동체를 강화하는 것을 주장했다. 실제로 당시 전투기의 경우 날개가 반이 잘려나가거나 수직미익이 떨어져나가도 꽤 안정적으로 귀환할 수 있었으나, 아예 동체에 과도한 공격이 가해지는 경우 아예 동체가 절단당해 그자리에서 회전하며 추락하게된다.

다만 이는 실제로 있던 사례는 아니다. 타 사이트 참조.

2.10. 의도적 편향

또는 특정 집단이 원하는 결과를 도출시키기 위해 의도적으로 편향된 통계가 나오게끔 하는 경우가 있다. 특히 설문지 형태에 대한 문답식 구조를 통해 통계를 산출하고자 할때, 집단이 원하는 답변에는 문답 모두 최대한 긍정적인 어휘를, 집단이 원하지 않는 답변에는 최대한 부정적인 어휘를 사용하여 답변자가 심리상으로 부정적인 답변을 최대한 꺼리게끔 배치시킨다.

대체로 이런 식의 통계에는, 최종적인 통계 수치에서 어떤식의 문답을 하였는지에 대해서는 기재하지 않는 경우가 많다.

* 성차별 관련 대표적인 편향적 통계의 예시로는, 남녀 대졸초임 임금격차를 살펴보는 통계를 들 수 있다. 대한민국의 산업구조상 남성의 전공 비율이 높은 전화기 계열 전공자가 선택하는 직장의 임금수준은 여성의 전공 비율이 높은 문사철 계열 직장의 임금 수준보다 높은 경향이 있다. 이와 같은 전공의 차이를 고려하지 않고 단순히 대학을 졸업한 사람의 초임만 줄세우면, 실제로는 어느 계열의 직장이든 남녀의 임금을 동일하게 지급하고 있음에도, 남녀의 초임연봉간 큰 격차가 있는 것처럼 사실을 왜곡하는 통계를 만들 수 있게 된다. 남자와 여자의 임금격차를 증명하고 싶으면 동등한 배경조건을 가지고 동일한 직종에 종사하는 남자와 여자를 비교하는게 맞다. 이것에 대해서는 임금격차 항목 참조.[10]

2.11. 통계적으로 의미 있는 모든 분석에 현실적인 의미 부여

통계적으로는 의미 있는 결과라 하더라도 현실적으로는 별 의미가 없을 수도 있다. 한 연구에 따르면 오스트리아에서 군대에 지원한 50만 명을 조사한 결과, 봄에 태어난 사람이 가을에 태어난 사람보다 키가 0.6cm 큰 것으로 나타났다.[11] 하지만 키 0.6cm를 위해 출산 시기를 조정할 부모는 거의 없을 것이다.

2.12. 오차범위

가령 어떤 여론조사에서 A후보 42%, B후보 40% 지지가 나타났다고 하자. 이 때 "A후보가 B후보에게 승리할 것으로 생각된다"라고 단정지으면 잘못된 결론이 될 수 있다. 위 여론조사가 신뢰도 95%에 오차범위(Standard deviation) 플러스마이너스 3.1%였을 경우, 결과가 바뀔 수 있어서 특정한 결과를 지지하지 못 한다. 이 정도 차이면 "A후보와 B후보는 경합( 박빙)이다"라는 결론을 내놓는 것이 좋다.[12] 굳이 양측의 차이를 알아내고 싶으면 표본집단의 구성에 더 신경을 쓰든지 표본의 수를 대폭 늘리든지 해서 오차범위를 훨씬 줄여야 한다.

반대로, 신뢰도가 충분히 높고, 두 후보 사이의 차이가 오차범위의 3배 이상쯤 차이나버리면 결과가 뒤집힐 확률은 매우 낮아진다. 물론 정상적인 조사 환경이었을 때. 우리나라는 과거보단 훨씬 덜해지긴 했지만 여론조사 환경이 열악한 편이다. 여론조사의 경우는 그래도 7대 지선과 21대 총선에서 어느정도 기틀이 잡혀가는 모습[13]을 보여줬지만 특히 출구조사인 경우는 더욱 그렇다. 출구조사는 선술했듯이, 사전투표 투표자를 제외한 투표자만 조사 가능하기 때문에 사전투표자[14]와 선거일투표자[15] 간의 인적 구성이 상당히 다르기 때문에, 제대로 된 조사 자체가 힘들다.

2.13. 시각적 도해를 활용한 왜곡

위의 그림은 통계학자들 사이에서는 교육적이면서도 동시에 악명 높은 것으로, 《The Economist》 1998년 5월 16일자 79페이지에 올라온 것이다. 매해 노동자와 자본가가 버는 시간당 액수의 증가를 보여주고 있는데, 서로 다른 세 가지 방식으로 나타나 있다. 왼쪽은 있는 그대로를 보여준 것이고, 중간은 증가량에 로그를 취한 것이며, 오른쪽은 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가'율'을 보여주고 있다. 세 방식 모두 거짓말이 들어있지 않으며 수학적으로 합리적인 그래프이긴 하다.

그러나 놀랍게도 중간과 오른쪽의 시각적 도해는 왼쪽의 도해가 보여주는 것과는 정반대를 가리키고 있다. 중간에서는 "노동자들의 임금 증가가 급격하게 이루어져 왔다" 고 해석될 여지가 있으며, 오른쪽에서는 더 나아가 "노동자들의 임금 증가가 사장의 수입 증가를 아득하게 초월하고 있다" 는 식으로 해석될 여지가 있는 것이다. 만일 연구자가 나쁜 마음을 먹고 중간이나 오른쪽 방식을 채택해서 임금 증가를 설명하고자 한다면, 면밀하게 따져 보지 않는 이상 여론이 호도되고 많은 사람들이 속아넘어갈 확률이 높다.

특히 이러한 트릭은 시각적인 자료 제시에 자신 없어하는 사람들에게 잘 먹혀들어간다. 간단한 상자도표(boxplot) 정도만 보여주어도 헉하고 움츠러드는 모습을 볼 수 있을 정도다. 뭔가 x축과 y축이 있고 거기에 추세선 같은 것이 그려져 있다면, 그 통계는 어찌 됐건 믿을 만하다고 생각하게 될 수 있다는 것이다.

그래프 왜곡 문서에 해당 내용을 포함한 다양한 내용이 많으니 참조.

2.14. 백분율의 배수 차이에 너무 큰 의미를 부여

의학 관련 기사에서 자주 보이는 함정인데, 예를 들어 A 집단과 B 집단을 비교했더니 암 발생률 차이가 2배였다는 식의 기사가 대표적이다. 만약 A 집단이 평소 특정 음식을 먹는 집단이었고, 특정 음식을 먹지 않는 B 집단의 암 발생률이 A 집단의 2배로 나타났다면, 이를 근거로 특정 음식이 항암 효과가 있다고 헤드라인을 내보낸다. 여기서 함정은, 실제 암 발병률이 A 집단은 1%, B 집단은 2%였을 경우, 2배 차이란 것은 실제로 아무런 의미가 없다는 것이다(...). 실제로는 1%p 정도 차이나기 때문이다.

물론, 의료 정책을 세우는 입장에서는 1~2% 차이라 해도, 나라 전체적으로 보면 엄청난 숫자이니[16], 출생 자료를 근거로 한 이러한 통계는 중요한 자료이다.

아빠 나이가 많으면 약한 아이가 태어날 확률이 높다는 기사도 기사 내용 자체는 거짓은 아니나 해석에 신중함이 필요한 사례이다. 이 기사의 내용을 보면, 가장 젊은 그룹인 25~34세 그룹에서도 미숙아를 낳을 확률이 기본 10%로 나왔으며, 가장 늙은 그룹인 55세 이상은 16%로 나왔다. 물론 이걸 거꾸로 뒤집으면 84% 정도는 건강한 아이인 것이다.

다운 증후군의 경우 20세 산모의 경우 빈도가 1600분의 1인데 비해 40세 산모의 경우 100분의 1인바 16배나 폭증하는 것 처럼 보이나, 퍼센티지로 환산하면 각각 0.06%, 1%에 불과하다. 이는 뒤집어보면 20세 산모가 낳은 아기 1만명 중 9994명이 다운 증후군이 아니나, 40세 산모가 낳은 아기 1만명 중에 9900명도 다운 증후군이 아니며 이는 1만명 중 94명에 불과하다.

이는 국민정서상 민감한 사회 현안을 다룰 때도 범하기 쉬운 오류이다. 2018년 국정감사에서 연예인의 보충역 전환률이 일반인의 11배였다며, 이를 근거로 연예인이 특권층 집단이라는 결론을 내리며 쟁점화를 하는 정치인들이 있었다.

물론, 그중에 암암리에 비리를 저지른 케이스도 있을 수는 있으나, 실제로 보충역 전환된 연예인은 5명에 불과했다. 기사에 나온 표 참조 이는 병역 특별 관리 대상자 연예인 전체의 5.81%로 실제로는 현역을 간 연예인이 90%를 넘는다는 얘기다.

여기서 일반인의 11배라는 것은 같은 케이스인 일반인이 0.52%라는 점을 근거로 한 것인데, 이를 사람 수로 환산하면 1195명이다. 즉 사람 수로만 비교했다면 오히려 보충역으로 전환된 일반인이 압도적으로 많다. 이는 달리 말하면, 연예인의 표본 수가 너무 적었다고도 볼 수 있다. 보충역으로 전환된 연예인이 총 5명이고 전체의 5.81%였다면, 연예인 표본은 86명이라는 얘기가 되는데, 이러면 애초에 1% 미만이 나올 수가 없다. 따라서 보충역으로 전환된 연예인이 딱 한 사람만 나와도 일반인의 두 배라는 계산이 나오며, 반대로 단 한 사람도 없었다면 오히려 0%라는 계산이 나온다. 즉, 겨우 5명 차이로도 일반인의 11배가 되기도 하고 일반인의 절반 수준이 되기도 할 정도로 퍼센테이지가 크게 변동할 수 있다는 얘기다. 반면 일반인들의 숫자는 수십 명 수준이므로 퍼센테이지가 낮으면서도 보충역으로 전환된 사람의 숫자가 압도적으로 많은 것이다. 이런 경우는 5명 정도의 변동이 어차피 큰 영향을 못 미친다.

2.15. 철저한 검사 및 조사에 의해 통계에 잡히는 사례가 증가하는 경우

이 또한 의학 관련 통계 자료를 접할 때 잘못 해석하기 쉬운 사례인데, 갑상샘암 관련 논란이 대표적이다. 물론, 통계 자료 자체가 잘못된 것이 아니고, 이를 접한 사람들이 확대해석하는 경우가 대다수이다. 과거에는 병원 문턱에도 못 가고 일찍 죽는 사람들이 많았으므로 제대로된 암 발생 통계가 있었을 리가 없었으나, 최근 들어서 의료 환경이 개선되고 국민들의 인식 수준이 높아짐에 따라 국가적인 암 검진이 이루어지게 되었기 때문에 당연히 최근으로 갈수록 갑상샘암 환자 발생률이 증가한다. 그런데, 이러한 점을 고려하지 않고, 막연히, 우리나라 환경 오염이 갈수록 심해져서 암 발생률이 높아진다고 오해하는 사람들이 있다.

노산 관련 통계도 그런 점을 고려해야 하는 부분이 있다. 평균 수명이 짧아 조혼이 많았던 시절에는 의학 수준이 낮아 그만큼 유산하는 사례도 많았을 것이므로, 애초에 통계에 잡히지 않는 아이들이 많았을 수 있다. 물론, 신체적인 상태만 본다면 젊을수록 건강한 아이가 태어날 가능성이 높은 것은 사실이나, 그렇다고 조혼을 했던 시절에 건강한 아이들이 더 많이 태어났다고 결론을 내리기는 어렵다는 얘기다. 또한 그 시절이라면 애초에 35세가 되기 전에 사망하는 여성들이 부지기수로 많았을 것이니 아예 노산 통계 작성이 불가능한 경우도 있었을 것이다. 노산 문서에도 나오지만, 현재 노산이 증가하는 주요 원인 중 하나가 의학의 발달로 인해 노산에도 무사히 태어나는 아기들이 많다는 것이다. 당연히 의료 환경이 좋을수록 관련 통계 작성도 늘어나고, 관련 대책도 철저하게 세워진다. 그리고 위 항목에서도 언급되지만, 확률의 차이에 너무 큰 의미를 부여하는 기사들이 많은데, 노산으로 인해 위험성이 증가한다 하더라도 대다수는 정상적인 아이를 낳기 때문에 당연히 산부인과에서도 웬만하면 낳도록 권유한다.

앞 항목에서 먼저 언급된 기사에서 보듯이, 이러한 통계는 당연히 공식적인 자료를 근거로 작성된다.[17] 따라서 미성년자가 몰래 출산하여 아기를 버리거나 낙태한 경우는 통계에 잡히지 않을 가능성이 높다.

또한 기형아 출산 관련 통계의 경우, 아이가 태어나기도 전에 기형아 출산 가능성이 우려된다는 이유로 비밀리에 낙태하는 경우가 많음도 고려해야 한다. 우리나라의 경우 유전병은 낙태가 허용되지만[18], 다운증후군은 원칙적으로 낙태가 불법이었다.[19] 당연히, 이런 상황을 감당할 수 있는 부부만이 아이를 낳을 것이고, 이런 경우는 경제적으로 기반이 잡힌 부부일 가능성이 높으니, 나이가 많은 부부가 관련 통계에 많이 잡힐 가능성이 높다.

이는 범죄 통계에서도 유의할 부분인데, 대표적으로 사기에 대한 통계의 경우 2010년대 중반 일본 황색언론에서 한국을 사기의 나라라며 매도한 기사를 국내 몇 언론이 무분별하게 수입해와 논란을 빚은 적이 있다. 다만 얼마 지나지 않아 확실한 가짜뉴스로 판별되었는데, 자세한 내용은 한국의 사기죄 관련 오해를 다룬 문서 및 관련 기사 참고.

3. 관련 문서

[1] 보통 95%. 높은 확률이라 생각할 수 있지만 이 정도면 논문 20건 중에 1건꼴로 잘못되는 꽤나 큰 수치다. [2] 특히 OECD 통계 [3] 예를들어 마약 중독에 시금치가 효과가 없다는 논문과 시금치가 고혈압에 좋다는 논문이 있다면, 당연히 후자의 것이 높은평가를 받는다. [4] 게다가 제21대 국회의원 선거가 끝난 2020년 현재도, 사전투표자를 대상으로 출구조사를 진행할 수는 없다. [5] 번호 하나를 구입해서 그것이 1등에 당첨될 확률은 1/8,145,060이다. 2023년 3월 기준 서울특별시의 인구가 940만명 정도가 되기 때문에 서울시민 전원이 로또 번호를 1개씩 구매했을 경우 그 중에 1~2명 정도가 당첨된다고 보면 된다. [6] 가급적 동일한 시간 간격으로 측정해야 한다. [7] 또한 이렇게 상관관계의 중간에 끼어들어 겉으로는 이상해 보이는 통계가 발생하게 하는 변인을 매개 변인이라고 한다. [8] 이민자를 포함한 수치이다. [9] Lori Mosca et al., "Evidence-based Guidelines for Cardio-vascular Disease Prevention in Women", American Heart Association, February 2004 [10] 다만 문과 계열과 이공계 간 임금격차가 정당한지, 또한 왜 여성은 이공계에 대한 접근성이 낮은지에 그에 대한 사회 문화적 요소에 대해선 생각해 볼 수는 있다. 서구에서 인종간 불평등을 언급할 때도 단순히 ’유색인종은 임금이 낮다‘ 수준에서 끝나는게 아니라 ’무엇이 소수 인종에 대해 고등교육과 고소득 일자리에 대한 접근성을 어렵게 만드는가‘를 반드시 언급한다. [11] J. Utts, vol. 57, no. 2, May 2003 [12] 물론 해당 결과를 근거로 했을 때 A쪽이 유리할 가능성이 좀 더 크며, 해당 결과와 비슷한 자료가 많이 나오는 경우 자연스레 오차범위가 줄어드는 것이 된다. 여론조사에서 교차검증이 중요한 이유이다. [13] 대한민국의 여론조사는 가장 기본적인 표본조차 제대로 잡지 못했다. 여론조사 문서에도 나와있지만, 무선전화 안심번호가 사용허가되기 전까지는 제대로 된 표본조차 잡지 못하여 20대 총선에서 여론조사가 거의 틀리는 결과가 나왔다. [14] 젊은 층, 진보층 위주 [15] 사전투표에서 젊은 층과 진보층이 주로 투표하기 때문에 상대적으로 노년층, 보수층의 투표 비율이 높다. [16] 단 1% 차이라도 월간 수천명 정도 차이다! [17] 2007~2016년 미국 출생 자료 약 4013만 건을 분석해 발표한 것이 이 기사에 소개된 연구 결과이다. [18] 이영학이 아이를 낙태하지 않은 것도, 의사가 이영학의 질병이 유전병이 아니라고 오진했기 때문이었다. [19] 원칙상 불법이었을 뿐 실제 처벌이 이뤄지는 케이스는 드물었고, 거기다 현재는 낙태죄가 폐지된 상태.

통계의 함정

1. 개요

2. 원인

2.1. 너무 작은 표본에 기초한 결론

2.2. 무응답 표본

2.3. 작위적인 표본을 통해 내린 결론

2.4. 매우 큰 표본에서 나타난 소수의 사례를 과대평가

2.5. 일회성 조사를 통해 내린 결론

2.6. 잘못된 조사 방법

2.7. 잘못된 인과관계 추론

2.8. 집단의 특성을 개인에게 적용

2.9. 의도치 않은 편향

2.10. 의도적 편향

2.11. 통계적으로 의미 있는 모든 분석에 현실적인 의미 부여

2.12. 오차범위

2.13. 시각적 도해를 활용한 왜곡

2.14. 백분율의 배수 차이에 너무 큰 의미를 부여

2.15. 철저한 검사 및 조사에 의해 통계에 잡히는 사례가 증가하는 경우

3. 관련 문서

분류