LLN은(는) 여기로 연결됩니다.
라틴아메리카 북부의 리그 오브 레전드 리그에 대한 내용은
Liga Latinoamérica Norte 문서 참고하십시오.
통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
큰 수의 법칙(law of large numbers, LLN)은 경험적 확률과 수학적 확률 사이의 관계를 나타내는 법칙으로, 표본집단의 크기가 커지면 그 표본평균이 모평균에 가까워 짐을 의미한다. 따라서 취합하는 표본의 수가 많을수록 통계적 정확도는 올라가게 된다.대수의 법칙이라고도 한다. 이는 일본어(大数の法則)를 중역한 용어이므로 한국인에게 직관적으로 와닿지 않고 대수학(algebra)의 대수( 代 數)와도 헷갈리기에 '큰 수의 법칙'이라는 표현을 사용하는 추세이다.
2. 설명
어떤 시행에서 사건 [math(A)]가 일어날 수학적 확률이 [math(p)]이고 [math(n)]번의 독립시행에서 사건 [math(A)]가 [math(r)]번 일어난다고 할 때, 임의의 [math(\epsilon>0)]에 대하여 [math(\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\!\left(\left| \frac{r}{n} -p \right| <\epsilon \right)=1 )]이다.
서로 독립인 확률변수 [math(X_1, X_2, \cdots , X_n, \cdots )]이 평균이 [math(\mu)]인 동일한 확률분포를 따를 때,
(1) (약한 큰 수의 법칙) 임의의 [math(epsilon>0)]에 대하여 [math(\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\!\left(\left| \frac{1}{n}\sum_{k=1}^{n}X_k -\mu \right| <\epsilon \right)=1)]이다.
(2) (강한 큰 수의 법칙) [math( \displaystyle \operatorname{P} \!\left( \lim_{n\rightarrow\infty} \frac{1}{n}\sum_{k=1}^{n}X_k = \mu \right)=1)]이다.
(1) (약한 큰 수의 법칙) 임의의 [math(epsilon>0)]에 대하여 [math(\displaystyle \lim_{n\rightarrow\infty} \operatorname{P}\!\left(\left| \frac{1}{n}\sum_{k=1}^{n}X_k -\mu \right| <\epsilon \right)=1)]이다.
(2) (강한 큰 수의 법칙) [math( \displaystyle \operatorname{P} \!\left( \lim_{n\rightarrow\infty} \frac{1}{n}\sum_{k=1}^{n}X_k = \mu \right)=1)]이다.
수학적으로 강법칙과 약법칙은 서로 다른 법칙이고, 실제로 강법칙이 훨씬 증명하기 어렵다. 다만 그 정확한 차이를 설명하는 것은 대학원 수준의 확률론 지식이 필요하고, 일상생활에서의 의미는 거의 차이가 없다고 보아도 무방하다.
이를 요약하면 "시행 횟수가 늘어날 수록 실제 측정한 확률(통계적 확률)이 수학적으로 예측된 확률(수학적 확률)에 수렴할 확률이 1에 가까워진다"는 것이다.[1] 언뜻 보면 매우 당연하고 단순해 보이는 소리지만, 이 법칙은 수학적 확률과 통계적 확률을 이어주는 굉장히 중요한 법칙으로 귀납논증에 논리적 타당성을 제공한다. 즉, 통계학이란 확률론을 기반으로 전개되는 학문이라는 것이다. 현대 자연과학에 있어 뉴턴의 운동법칙, 에너지 보존 법칙만큼이나 구속력이 강하다고 할 수 있다. 멀리 갈 것 없이 통계역학과 열역학 제2법칙이 큰 수의 법칙에 기반한다. 현대 과학의 근간 중 하나로 봐도 손색 없을 정도로 중요한 법칙이지만, 특정인이 발견해낸 것이 아니기에 잘 알려지지 않은 법칙이다.
|
주사위를 더 많이 던질 수록 특정 눈이 나온 비율은 1/6에 가까워진다. |
간단하게 생각해보자. 정상적인 주사위를 던질 경우 각각의 숫자가 나올 확률은 1/6이다. 따라서, 일반적으로 주사위를 6번 던진다면 모든 숫자가 대충 1번씩은 나온다. 그러나 실제로는 같은 숫자가 중복으로 나와서 1/66 확률로 1만 6번 나올 수도 있다. 그렇다고 해서 이 주사위를 던졌을 때 1이 나올 확률은 100%, 나머지 숫자는 0% 라고 말 할 수는 없는 것이다. 정상적인 주사위니까. 따라서 처음 6번 동안 1이 스트레이트로 나온 건 운이 좋았다 치고, 이 주사위를 60번, 600번, 6만 번을 던지면 처음엔 100%였던 1이 나온 비율이 다른 숫자들이 나오면서 점점 줄어들게 되고, 다른 숫자들도 처음엔 0%였지만 점점 걸려 나오는 숫자가 많아지면서 나온 비율이 점점 올라 종국엔 모든 수가 나온 비율이 각각 거의 1/6이 될 것이다. 물론 실제로는 모두가 16.67%는 아니고 어떤 건 16.8%, 어떤 건 17%, 어떤 건 16.1% 등 들쭉날쭉 할 수 있으나, 사람이 직접 던졌을 때 이 정도면 만족할 만한 결과다. 여기서 컴퓨터나 시뮬레이터의 힘을 빌려 주사위를 6억 번 던진다면? 각각의 수가 나온 비율은 6번 던진 것에 비해 1/6에 가까울 것이다. 다시 6조 번을 던진다면? 각 수가 나온 비율은 6억 번을 던진 것에 비해 1/6에 더 가까워질 것이다. 결과적으로 시행의 횟수를 늘리면 늘릴수록 각 수가 나온 비율이 1/6로 수렴할 확률이 커져서 1에 가까워져 간다는 것이 큰 수의 법칙의 원리이다. 실제로 주사위를 1000번 던지는 경우에도 1/6에 가까운 결과를 보인다.
이 법칙이 현실에서 가장 잘 쓰이는 곳이 바로 도박. 대표적인 예로 카지노에서 하우스 측이 돈을 벌어들이는 것도 이 법칙을 적절히 활용한 것이다. 룰렛 게임을 예로 들자면, 룰렛에서 '검정 · 빨강', '홀수 · 짝수'에 돈을 걸어 성공한 경우 2배의 금액을 받는다. 수는 당연히 홀수 아니면 짝수이고 색도 검은색 아니면 빨간색 밖에 없으므로 2배의 금액이면 기대값이 1일 것 같으나 실제로는 빨강색도 검은색도 아니고 홀수도 짝수도 아닌 것으로 취급되는 녹색 0과 00이 있어 1에 미치지 못한다. 간단히 말하자면 승률이 50%일 것 같은데 실제로는 47.4% 정도의 승률이라는 것. 카지노 측은 바로 여기서 큰 수의 법칙을 활용하는 것이다. 개개인의 고객이 실제로 행한 시행에서는 편차가 발생해 돈을 따는 사람과 잃는 사람이 생겨나지만, 그 모든 고객을 상대하는 카지노 입장에서는 결과적으로 이득을 본다는 사실은 변하지 않는다.[2] 즉, 고객 입장에서의 환수율이 100%에서 아주 조금만 낮아도 수천 수만 명을 상대하는 카지노 측이 결과적으로 이득을 볼 수밖에 없다. 물론 노골적으로 심하게 기댓값이 낮으면 아예 손님이 모이지 않으므로 기댓값은 1보다 낮을지언정 미묘하게 근접하게 해놓고 게임 횟수 또는 판돈을 늘려 결론적으로 벌어들이는 총 금액을 늘리는 게 일반적이다. 도박사의 오류를 감안해도 이 법칙은 절대 우습게 볼 게 아니다. 설령 당첨률이 1%라고 해도 수천, 수만 번 시도해서 한 번도 당첨되지 않을 확률은 1%보다도 낮다는 것. 그리고 이후부터는 당첨되지 않을 확률이 기하급수적으로 낮아진다.
도박에서 이와 연결되는 표현으로 일명 ' 초심자의 행운'(beginner's luck)이 있다. 도박에 대해 익숙하지 않은 초보자가 초반에는 우연히 행운으로 고수보다 더 큰 이득을 얻을 수 있다는 미신이다. 이는 아직 통계적 확률이 수학적 확률로 수렴하지 않은 상태라 가능한 것이다. 그러나 초보자의 승률은 고수의 승률보다 낮은 상태이고, 시행 횟수가 늘어날수록 승리 횟수는 승률에 수렴하게 되므로 결과적으로는 고수보다 이득이 낮게 된다.
수능이나 과거 삼성그룹의 SSAT가 시험 자체의 유용성과는 별개로 공정하다는 소리를 듣는 이유 중 하나가 모집단이 그 만큼 많아서이며 예외는 모집단을 줄이는 효과가 있다. 출제과정의 유출 등은 별론이겠지만.
프로야구계의 명언 내려갈 팀은 내려간다는 이 큰 수의 법칙을 반영한 과학적인 발언이다. 야구라는 스포츠 특성상 독립확률의 연속이라 역시나 큰 수의 법칙이 적용되는 스포츠인 데다,[3] 페넌트 레이스는 100경기 이상의 장기 시즌이라 초반에는 전력이 약한 팀도 잠시 행운으로 높은 승률을 기록할 수 있지만 경기 수가 많아질수록 큰 수의 법칙에 따라 원래 실력대로 수렴하여 하위권으로 내려가게 된다.
던파확률의 법칙이나 천봉의 조작 논란 역시 '큰 수의 법칙'을 무시해서 생긴 근거 없는 속설일 뿐이며, 로또 명당 같은 곳도 따지고 보면 사람 많이 몰리니까(즉 유동인구가 많으니까) 계속 명당 자리를 지키고 있는 것일(=당첨될 "상대적" 확률은 다른 집과 똑같은데도 사람이 많이 몰리니까 당첨된 절대적 횟수가 많아졌을) 뿐이다. 버뮤다 삼각지대에서 사고가 많이 생긴다는 이야기도 결국에는 연근해와 적당히 떨어져 있어 사고가 발생했을 때 적절한 타이밍에 구조를 받는 것이 어렵다는 점과, 그 곳을 통과하는 선박·항공기의 대수가 원체 많아서 생기는 큰 수의 법칙에 기인했다고 보는 것이 타당하다.
다른 예시로는 51% 확률로 1000원을 잃고 49% 확률로 1000원을 얻는다는 것을 생각해볼 수 있다. 초반에는 빚을 질 수도 있고 돈을 벌 수도 있다. 그러나 자주 하면 아무리 2%p 차이라고 해도 이득을 볼 확률은 눈에 띄게 줄어들어가며 손해를 보면 그 손해를 본 만큼 또 해야 하니 결과적으로는 손해가 된다. 로또도 같은 원리로 몇 번 사보고 안 된다 싶으면 안 사는 게 정석. 손해를 1000원만 보았을 때 96.07%의 확률로 언젠가는 본전을 찾을 수 있다. 하지만 그렇다고 이걸 무한히 시도한다면? 확실히 손해를 본 다음에도 언젠가 본전을 뽑을 확률은 0이 아니다. 그래서 계속 시도한 다음에 본전을 뽑고도 충분한 이득을 본 다음에야 그만두는 것도 생각해볼 수 있다. 하지만 손해가 쌓이면 쌓일수록 본전을 뽑을 확률은 기하급수적으로 낮아져서 0에 수렴하며 무한히 시도하는 건 어디까지나 상상일 뿐이지 현실에서는 불가능하다
2.1. 작은 수의 법칙?
큰 수의 법칙은 수학적으로 확실한 것이지만, 각 시행이 독립시행이며 확률분포가 동일하다는 전제가 있어야 하며 이것이 제대로 검증되지 않은 상태라면 결과는 다르게 나타날 수 있다. 이를테면 주사위의 경우 수학적으로 어떤 한 면이 나올 수 있는 확실한 1/6 이라는 p 값이 있고 가위바위보 싸움의 이기고 지고 비길 수 있는 1/3 확률이 있으며 이 확률값이 재현되기까지 40번 정도의 시도만으로도 유의미한 신뢰 구간이 나와 법칙 증명에 큰 문제가 없지만 p 값이 틀렸다면? 지금 예로 든 주사위나 가위바위보 같은 것이 아닌 더 복잡하고 변수가 많으며 표본이 부족한 무언가를 섣불리 획일화시켜서 p 값을 재현해 그것을 큰 수의 법칙에 적용시키면 큰 오류가 발생한다. 고작 40~50번으로 해결될 문제보단 해결이 안 될 문제가 훨씬 많다.때문에 책 <이공계의 뇌로 산다>에서 소개된 노벨경제학상 수상자 대니얼 카너먼은 우스갯소리로 이러한 불충분한 표본으로 잘못 만들어진 p 값으로 인한 '잘못된 큰 수의 법칙 적용 사례'를 두고 '작은 수의 법칙'이라고 얘기했다고 한다. 즉 실제 있는 법칙은 아니다. 또한 잘못된 p 값 예시로 V2의 런던폭격분포를 예로 들었다. 말인즉 이미 폭격이 된 결과물만 가지고 일정한 폭격분포를 표본으로 어느 지역에 어느 정도 폭격이 될 p 값을 구할 수 있지만 V2 미사일은 그 p 값은 커녕 어디로 날아갈지 도통 알기 힘든 매우 정밀도가 낮은 물건으로 이미 폭격된 지역표본의 p 값은 큰 의미가 없었다는 것. 쏘면 쏠 수록 p 값이 변할 수밖에 없는 물건이었다는 것이다.
2.2. 중심극한정리와의 차이
많은 사람들이 혼동하는 내용이다. 둘은 다른 것이다.- 큰 수의 법칙: 표본집단의 크기가 커질수록, 표본평균이 모평균(이론값)에 가까워진다.
-
중심극한정리(Central Limit Theorem): 무작위로 추출된 표본의 크기가 커질수록, 표본 평균의 분포는 모집단의 분포 모양과는 관계없이
정규분포에 가까워진다.
3. 관련 문서
- 강팀의 방정식
- 규모의 경제
- 뉴턴의 운동법칙
- 던파확률의 법칙
- 보험[4]
- 빅데이터
- 소포모어 징크스
- MBC 프로그램들의 저주: 나는 가수다/관련 공식, 무한도전의 저주, 우리 결혼했어요의 저주[5]
- 없는 게 없는 무한도전: 위의 MBC 프로그램들의 저주와 일맥상통한다.
- 도박사의 오류
[1]
더 간단히 이야기하면, 시행 횟수가 늘어나면 통계적 확률이 수학적 확률에 가까워진다.
[2]
이러한 도박장을 발라먹는 유일한 방법으로
마틴게일 베팅법이 있긴 한데, 마틴게일 베팅법이 무조건 성공하려면 자본이 무한해야 한다는 전제조건이 있으므로 사실상 불가능.
[3]
무슨 얘기냐면, 축구나 농구 혹은 LOL의 팀전처럼 한 번의 실수를 파고들어
스노우볼 굴려서 계속 점수를 벌릴 수 있는 다른 스포츠와 달리 야구는 공격이 타자 1명씩 뚝뚝 끊어지기 때문에 9명 모두가 잘치지 않는 한 분위기, 모멘텀 그런 거 없고 득점 기회를 날리게 된다. 그래서 한 경기 내에서도 약팀이 깜짝 승리하기도 하지만, 그보다 더 많은 확률로 경기 후반으로 갔을 때 약팀이 역전을 잘 당하는 것이다.
[4]
보험의 가장 근본적인 원리가 큰 수의 법칙이다.
[5]
이는 오래된 프로그램인데다가 인지도가 높아서 유독 주목받는 게 원인이라고 할 수 있다.