통계적 방법/분포

상위 문서: 통계적 방법

1. 소개2. 들어가기 전에

2.1. 확률과 확률 변수2.2. 이산형 및 연속형 확률변수

3. 확률 분포

3.1. 결합확률분포3.2. 이산확률분포3.3. 연속확률분포

3.3.1. 정규분포와 그 표준화

4. 관련 문서5. 둘러보기

1. 소개

통계적 방법 중 추론통계학의 논리적 기초가 되는 기초 확률론 및 확률 분포 개념을 설명하는 문서.

2. 들어가기 전에

대부분의 사회통계 커리큘럼에서 학생들은 기술통계 공부를 마치자마자 추론통계가 아니라 확률이라는 수학적 개념에 갑작스레 직면하게 된다. 그리고 확률을 표현하기 위한 온갖 수학적 기호들에 익숙해질 무렵, 다시 확률함수와 확률분포 같은 개념들이 우수수 튀어나오며 ~~수포자 문과생들의~~ 뒷목을 잡게 만든다(…). 그래서 일부 학생들은 수학의 정석이나 이미 몇 년 전에 버렸을 수학 참고서들을 다시 꺼내 뒤적이기도 할 정도. 그런데 문과 고등교육에서 확률을 구태여 가르치려고 하는 데에는 이유가 있다. 그 이유는 추론통계로 넘어가기 이전에 확률을 배우게 된다는 커리큘럼의 순서와도 관련이 있다.

여러 방식으로 설명할 수 있지만, 추론통계학 자체가 확률 이론을 밑바탕으로 하여 짜여져 있기 때문에 확률에 대한 이해 없이는 추론통계학을 제대로 이해했다고 보기 힘들다. 첫째로, 추론통계학은 추정(estimation)이든 검정(testing)이든 간에 하술할 표준정규분포(standard normal distribution)를 놓고 그 깔린 판 위에서 표본분포든 뭐든 논의하는 경우가 많은데, 이를 이해하려면 정규분포를 이해해야 하고, 그러려면 다시 확률분포를, 그러려면 다시 확률변수를 이해해야 한다. 둘째로, 추론통계학이 '추론' 을 한다는 것은 오차(error)의 발생 가능성을 인정하면서 그 크기를 명확히 적시하고 최대허용한계 이내로 관리되고 있음을 보여준다는 데서 일반인들의 일상적인 '추론' 과 달라지는데, 여기서 오차 개념을 이해하려면 그 역시 확률에 입각한 설명이 필요하다.

이러니저러니 해도 추론통계학의 논리는 배우는 사람이 확률에 대해서 어느 정도는 이해하고 있다는 전제 하에 전개되기 때문에, 추론통계학을 실제로 써먹어야 하는 사회과학 등의 연구자들도 ~~자기들의 고등학교 시절 수학 성적이 얼마였건 간에~~ 울며 겨자먹기로라도 확률에 익숙해져야만 한다. 그렇지 못한 사람은 추론통계학의 전체 커리큘럼 범위, 즉 불편추정량의 기댓값 계산에서부터 유의확률 p-값의 의미에 이르기까지 내내 헤매면서 무작정 달달 외기만 하다가, 그대로 그 이후의 분석 단원으로 넘어가게 된다. 그리고 논문을 쓰는 그 순간까지도 자기가 보고하는 t-값과 p-값의 정확한 의미를 알지 못하며, SPSS에서 왜 그런 값들을 출력하여 자신에게 보고하는지도 깨닫지 못한다. 그저 컴퓨터가 써서 내밀었으니까 자기도 받아적을 뿐이고, '별' 들이 떠 있으니 좋아할 뿐이다. p-해킹을 저지르는 연구자들도 바로 이들이다. 이런 사람들이 많아질수록 그 학문분야도 골병이 든다.

그럼에도 이들은 수학과가 아니고, 어디까지나 실제로 현장에서 써먹기 위한 방법론(즉 도구)로서만 확률을 배우는 것이므로, 사회통계 수업은 가장 기초적인 확률 이론으로만 커리큘럼이 편성되며, 경제학 같은 특이한 경우가 아니라면 그 이상의 무언가를 요구하지도 기대하지도 않는다. 이렇다 보니 실제로 가르쳐지는 내용들은 수학과나 통계학과 학생들이 보면 기겁을 할 만큼 단순하거나 대번에 반론을 제기할 법한[1] 사례들이 많다. 하지만 방법론의 관점에서 본다면, 그런 반론들이 지적하는 지점들이 정말로 중요했다면 그것이 진작 반영되었을 것이며, 그렇지 못하다는 건 단지 그것이 현실적으로 중요치 않아서라고 말할 수도 있다.[2] 예컨대 베이즈 확률론의 빈도주의 비판의 경우 처음에는 방법론으로서 유의미하게 평가되었던 비판은 아니었으나, 베이지안 자체가 방법론에 기여할 수 있음이 입증되자 사회과학계 및 데이터과학계 분야에서 몇 년 내로 가히 들불 일듯이 베이지안 방법론의 돌풍이 불기 시작했다. 덕분에 후학들은 머지않아 ' 좀 더 심도 있는' 확률 이론까지 배워야 할 처지가 된 것은 덤. 어쨌든 요지는, 많은 걸 요구하는 것이 아니니, 기왕 배우는 것은 확실히 알아야만 연구가 된다는 것이다.

2.1. 확률과 확률 변수

수학 전공자들이 접하면 열 받을 만한(…) 초딩급의 논리로 확률을 설명하자면,[3] 확률은 늘 분수의 모양새[4]로 나타난다. 즉 분모가 뭐냐, 분자가 뭐냐 하는 것부터 각각 따지기 시작해도 자신이 알고자 하는 확률에 대해 최소한의 감을 잡는 게 가능하다. 여기서 분모는 상식적으로 가능한[5] 모든 경우를 싹 찾아서 모아놓은 숫자가 될 것이고, 분자는 그 중에서 자신이 관심이 있는 경우를 유발해 내는 모든 경우를 모아놓은 숫자가 될 것이다. 다시 말하면 가능한 상황 전체와 특정한 상황 일부를 놓고 크기를 서로 견주어 본다는 것이다. 이때 분자가 0보다 작을 수는 없고, 분모와 같을지언정 더 커질 수는 없으니, 확률의 값은 늘 0과 1 사이의 0.xxx...로 나타난다.

사실, 확률에 대한 가장 고전적이고 단순한 정의 역시 여기서 크게 다르지 않다. 위에서 말한 분모의 개념, 즉 '가능한 상황 전체' 는 교과서에 등장하는 표본공간(sample space) 개념에 대응된다. 마찬가지로 위에서 말한 분자의 개념, 즉 '특정한 상황 일부' 는 교과서에 등장하는 사상 혹은 사건(event) 개념에 대응된다. 로또 1등 당첨될 확률처럼 특수한 경우에는 여기에 조합(combination) 개념이 덧붙기도 하고, 홀인원 확률이 0.02%인 골퍼가 10회 도전 내에 성공시킬 확률 같은 문제는 n제곱이 들어간 곱셈계산으로도 가능하긴 하다. 그래도 표본공간의 크기와 사건의 크기를 비교한다는 아이디어 자체는 가장 직관적이고 손쉽다는 장점이 있다. 인간사에서 확률이 문제가 되는 것은 불확실성, 즉 표본공간과 사건이 서로 크기가 다르기에 사건이 벌어질지 안 벌어질지 짐작하기 힘들다는 점 때문으로, 둘을 견주어 본다면 사건의 발생 가능성에 대해 통찰을 얻을 수 있다.

그런데 의외로 현실은 위에서 계산해 놓은 분수처럼 흘러가지 않는 경우가 많다. 하나의 동전을 던질 때 동전의 뒷면이 나올 확률은, 가능한 모든 상황인 '앞 or 뒤' 의 2가지 중에서 '뒤' 1가지에 해당하기 때문에 1/2로 기대될 텐데,[6] 실제로 동전을 직접 던져 보는 확률실험(random experiment)을 시행해 보면 이상하게 처음 4번 중 4번 모두 앞면만 나오는 경우도 적지 않다. 그러나 이러한 경험들이 충분히 쌓이고 쌓인다면 점점 더 앞면과 뒷면이 50:50 비율에 가까워져 가며, 무한히 반복한다면 위의 분수 형태의 확률로 얻어진 값에 무한히 근사하게 된다. 즉 수학자들이 펜대를 굴려서(?) 얻어낸 확률과 충분히 많은 귀납적 관찰로 얻어낸 확률이 서로 만나게 되는 것이다. 이를 큰 수의 법칙(law of large numbers)이라고 한다.

이때 학자들은 확률실험의 결과로 발생하는 각각의 사건들마다 실수 값을 하나씩 대응시켜 붙여 주자는 제안을 내놓았다. 앞의 동전 던지기의 경우, 동전의 앞면이 나왔을 때에는 숫자 1을, 뒷면이 나왔을 때에는 숫자 0을 붙일 수 있다는 것이다. 주사위 하나를 굴리는데 짝수 눈이 나왔을 때에는 숫자 1을, 홀수 눈이 나왔을 때에는 숫자 2를 붙일 수도 있다. 이렇게 한다면 주사위 눈 중에서 1, 3, 5가 입력되면 1이 출력되고, 주사위 눈 중 2, 4, 6이 입력되면 2가 출력되는 함수인 확률변수(random variable)로 정의되는 것이다. 이 확률변수가 갖는 실수값들은 확률함수(probability function)에 의해 확률과 연결되어, P(X＝[math(x)])일 때 P(X＝1)[7]＝P(X＝2)[8]＝1/2[9]이라고 표현될 것이다.

왜 확률에다 굳이 이런 번거로운 조치를 하는 것일까? 동전의 앞뒷면에 숫자를 붙여 주자는 발상은 언뜻 큰 가치가 없어 보이며, P(X＝[math(x)])라는 표현법은 수포자들에게는 가독성도 굉장히 떨어진다(…).[10] 두 가지 정도의 이유가 있다. 우선, 현실의 많은 확률들은 위에서 설명한 동전 던지기(coin flip)보다 훨씬 더 복잡한 성격을 갖고 있다. 가능한 모든 상황인 확률공간 내에서 각각의 특정한 상황인 사건들의 빈도가 서로 다른 것이다. 주사위 두 개를 동시에 던질 경우를 보면, 두 눈의 합이 5로 같은 사건이라 할지라도 1과 4가 함께 나오는 경우가 있고 2와 3이 함께 나오는 경우가 있는데, 그 결과로 5~7 정도의 합이 나오는 사건의 확률은 2나 12의 합이 나오는 사건의 확률보다 더 높아진다. 이렇듯 확률공간에서 빈도가 서로 다른 사건들의 경우, 수학적으로 여러 시행 결과들을 고스란히 다루는 것은 매우 번거로운 작업이 된다. 비유하자면 손가락을 하나하나 접어 가며 사칙연산을 하는 꼴이다.

확률변수는 실수가 배정된 각각의 사건들이 서로 같거나 다른 확률을 갖고 있음을 일목요연하게 보여준다. 이를 위해 확률변수는 각각의 사건들에 실수 값을 대응시킨다는 아이디어를 활용한다. 각 사건들의 확률이 서로 다르다면, 매 시행마다 그 확률변수가 계속해서 뱉어내는 실수 값들에서 각각의 값의 비율은 확률함수가 명시한 비율을 따라가게 될 것이다. 그렇다면 우리는 그 확률함수가 명시한 확률만 가지고도 수월하게 확률 계산을 할 수 있다. 확률변수는 실수 값을 통해서 (확률실험이 벌어지는 가능한 모든 상황의 영역인) 표본공간과 (특정한 사건이 벌어질 수 있는 빈도를 다루는) 확률공간 사이에 다리를 놓는다.

예를 들어 보자. 동전 3개를 던졌을 때 앞면이 나오는 동전의 수를 X라 하면, 대응될 수 있는 실수는 다음과 같다.

표본공간	→	실수대응
<colbgcolor=#FFFFFF>(뒤, 뒤, 뒤)	<colbgcolor=#FFFFFF>→	<colbgcolor=#FFFFFF>0
(앞, 뒤, 뒤), (뒤, 앞, 뒤), (뒤, 뒤, 앞)	→	1
(앞, 앞, 뒤), (앞, 뒤, 앞), (뒤, 앞, 앞)	→	2
(앞, 앞, 앞)	→	3

이는 그저 간단히 말하자면 동전 3개를 던졌을 때 아무것도 앞면이 안 나올 수도 있지만(실수값 0 대응) 많게는 셋 다 앞면이 나올 수도 있음(실수값 3 대응)을 의미한다. 그러나 이 표는 더 나아가서, 앞면이 1개 혹은 2개만큼 나오는 사건은 확률실험을 했을 때 좀 더 다양한 상황에서 자주 관찰될 수 있음도 보여준다. 확률변수는 이런 상황들을 수학적으로 다룰 수 있도록 다음과 같은 확률함수의 표를 제시한다.

<colbgcolor=#EEEEEE>실수대응 X	0	1	2	3	<colbgcolor=#EEEEEE>합계
확률공간 P(X＝[math(x)])	[math(\displaystyle\frac18)]	[math(\displaystyle\frac38)]	[math(\displaystyle\frac38)]	[math(\displaystyle\frac18)]	1

이제 예컨대 '동전 3개를 던졌을 때 동전 1~2개에서 앞면이 나올 확률은?' 따위의 문제를 만나더라도 당황하지 않을 수 있다. 확률함수를 얻었으니 남은 것은 P(X＝1)과 P(X＝2)의 확률을 서로 합산하기만 하면 되기 때문이다. 남들이 가능한 모든 상황(표본공간)을 쫙 깔아놓고 그 중에서 특정한 상황(사건)을 더듬더듬 추려내고 있을 때, 확률함수의 표를 통해 3/4라는 답을 간단히 내놓을 수 있게 된 것이다. 이러한 확률함수의 가치는 동전이나 주사위 따위가 아니라 대규모 확률 데이터를 취급할 때 특히 유용하다.

확률변수의 두 번째 필요성은, 각각의 사건들의 확률만 보고도 손가락 하나 까딱하지 않고 그 확률실험에 대한 감을 잡을 수 있다는 데 있다. 표본공간에서 확률변수라는 다리를 건너 확률공간으로 넘어왔다면, 확률공간에서도 표본공간으로 넘어갈 수 있는 셈이다. 물론 동전 3개를 한 번 던져서 앞면이 몇 개 나오는지까지 알 수는 없으며, 그걸 알 수 있는 사람은 대학원에서 사회과학을 공부할 게 아니라 돗자리를 깔아야 한다(…). 확률변수가 자신할 수 있는 것은, 그 확률실험을 무한대로 반복할 경우에 대충 어떤 결과를 기대할 수 있겠느냐는 것이다. 다시 말해, 그 확률변수가 끝없이 실수 값들을 뱉어낸다고 할 때 확률함수는 각각의 값들이 어떻게 나타날지를 미리 알려준다. 이를 기댓값(expected value)이라고 한다. 사실 이것만으로도 이미 확률변수는 엄청난 가치를 갖는다.

확률변수의 평균의 기댓값: 각각의 실수 값들을 [math(x)]_i라고 정의하고, 그에 대응되는 각각의 확률을 p_i라고 정의할 때, 평균의 기댓값은 E(X)＝Σp_i[math(x)]_i로 정의된다. 이를 풀어 말하면, 표에서 각각의 위아래 숫자를 저마다 곱해놓고, 그 곱연산한 결과들을 전부 합산하면 그게 평균이 된다. 위의 동전 3개의 사례에서는 1.5[11]가 된다. 모든 실수 값에 특정한 수를 가감승제할 경우 그 평균의 기댓값에도 똑같이 적용된다(E(aX＋b)＝aE(X)＋b).
확률변수의 분산의 기댓값: 이 경우에는 V(X)＝E(X²)－[E(X)]²로 정의된다. 이를 풀어 말하면, 여기서는 두 가지 정보가 필요하다. 하나는 각각의 실수 값들을 제곱한 후 평균의 기댓값 구하듯 구한 정보이고, 다른 하나는 평균의 기댓값을 평범하게 구한 이후 한 번 제곱해 준 정보이다. 그리고 전자의 값에서 후자의 값을 감산하면 된다. 위의 동전 3개의 사례에서는 0.75[12]가 된다. 모든 실수 값에 특정한 수를 가감하는 것은 분산의 기댓값에 영향을 주지 않으나, 곱하거나 나눌 때에는 그 숫자가 제곱되어서 분산의 기댓값에 적용된다(V(aX＋b)＝a²V(X)).

2.2. 이산형 및 연속형 확률변수

위에서 소개한 각종 개념들을 가지고 확률분포를 살펴보기 전에 주의할 점이 있다. 위에서 개념을 소개한 방식들은 모든 확률분포에 똑같이 적용될 수 없다. 한 예로 위에서 확률함수라고 소개했던 내용은 더 정확히 말하자면 확률질량함수(probability mass function)에 대한 설명으로, 합계(Σ) 계산을 하지 않는 다른 종류의 확률함수에서는 해당되지 않는다. 그리고 그 '다른 종류의 확률함수' 들이야말로 사회과학 통계적 방법론에서 더 많은 관심을 기울이고 있으며, 가르쳐야 할 것도 더 많다. 그 방향으로 나아가려면 지금까지의 이산적(discrete)인 세계로부터 앞으로의 연속적(continuous)인 세계까지 아울러 바라볼 수 있어야 한다.

흔히 생각하기에, 동전을 던질 때에는 '앞' 과 '뒤' 만이 고려되며, 각각 1과 2의 숫자를 대응시켰을 때 그 확률변수에서 1.4971... 따위의 숫자가 튀어나올 가능성은 없다. 한편, 자동차 판매원이 연간 판매한 자동차의 수는 20대가 될 수도 있고 심지어 500대가 될 수도 있겠지만, 어쨌든 그에 해당하는 확률은 논의가 가능하다. 그런데 100.15대를 판매하는 상황은 ~~부품만 따로 떼어서 암시장에 파는 게 아니라면~~ 논의 자체가 불가능하다. 어떤 사람이 영화 별점을 매기는데 별 반 개 단위로까지 매길 수는 있어도, 반의반 개를 준다는 개념은 없다. 결과적으로 가능한 모든 상황(표본공간)이 '유한한' 경우가 된다.

반대로 어떤 사람이 일평균 유튜브에 접속하는 시간을 측정할 경우, 50분 접속할 수도 있고 51분 접속할 수도 있지만, 그것이 가장 비슷한 접속시간인 것은 아니다. 사실 초 단위 소숫점을 한없이 늘리면 늘릴수록 가장 비슷한 접속시간은 점점 더 짧아질 것이다. 누군가의 키를 재거나 KTX가 질주하는 속도를 측정할 때에도, 어떤 숫자가 튀어나올지 표의 형태로 미리 늘어놓는 것은 불가능하다. 결과적으로 가능한 모든 상황(표본공간)이 '무한한' 경우가 된다. 이때에는 그 자료로부터 모든 가능한 상황들 각각의 확률을 따로따로 파악할 수가 없어지고, 특정한 한 값이 갖는 확률의 의미도 없게 되어,[13] 위에서 소개했던 확률변수의 논리를 보완할 필요성이 생긴다.

앞에서 소개했던 확률변수가 바로 이산형 확률변수(discrete random variable)이다. 이것은 단순한 계수(count)의 논리를 따르는데, 가능한 모든 상황(표본공간) 속에서 사건마다 배정되는 실수 값들의 수가 유한하여 일일이 세는 것이 가능한 확률변수이다. 다시 말하면, 각각의 인접한 단위(adjacent units) 사이에서 존재할 수 있는 값의 수가 유한하게 정해져 있다. 지금까지 위에서 소개했던 동전 던지기나 주사위 굴리기(dice roll)가 바로 이에 해당한다. 이산형 확률변수의 모든 특정 값의 확률은 0과 1사이에 있으며, 합계(Σ) 계산을 활용하며 그 총합은 항상 1이고, 확률함수는 P(X＝[math(x)])의 형태인 확률질량함수이다. 일반적으로, 이산형 확률변수의 확률분포를 시각화할 경우에는 막대그래프(bar chart)의 형태로 나타난다.

반면 앞에서의 논리로는 대응이 불가능했던 확률변수가 바로 연속형 확률변수(continuous random variable)이다. 이것은 적분(integral)의 논리를 따르는데,[14] 가능한 모든 상황(표본공간) 속에서 사건마다 배정되는 실수 값들의 수가 무한하여 일일이 세는 것이 불가능한 확률변수이다. 다시 말하면, 각각의 인접한 단위 사이에서 존재할 수 있는 값의 수가 무한하다. 대표적인 연속형 확률변수로는 사람의 키, 사물의 무게와 온도, 시간과 시각 등이 있다. 연속형 확률변수의 모든 구간에서의 확률은 양의 값을 가지며, 적분(∫) 계산을 활용하며 전체 면적은 항상 1이고, 확률함수는 P(a≤X≤b)의 형태인 확률밀도함수(probability density function)이다. 일반적으로, 연속형 확률변수의 확률분포를 시각화할 경우에는 히스토그램 또는 종형곡선(bell curve)과 같은 부드러운 비선형적 곡선의 형태로 나타난다.

이를 대조하기 쉽도록 표로 정리하면 다음과 같다.[15]

	이산형 확률변수	연속형 확률변수
<colbgcolor=#EEEEEE>표본공간 속의 모든 실수 값들을...	셀 수 있다.	셀 수 없다.
인접한 단위 사이에서 존재하는 실수 값들이...	유한하다.	무한하다.[16]
확률은... 에 대응하여 할당된다.	각각의 특정 실수 값에	분포 상의 특정 구간의 면적에
기본이 되는 확률함수 P(X)는...	P(X＝[math(x)])인 확률질량함수이다.[17]	P(a≤X≤b)인 확률밀도함수이다.
모든 실수 값의 범위는...	0에서 1 사이에 있다.	분포 상의 모든 구간에서 양의 값을 갖는다.
기댓값을 계산할 때에는...	합계(Σ)를 활용한다.	적분(∫)을 활용한다.
시각화하여 나타낼 경우...	대개 막대그래프 모양이다.	대개 히스토그램 또는 곡선형의 그래프 모양이다.

일반적으로 사회과학에서 늘 문제가 되는 것은 연속형 확률변수이며, 연속성이라는 문제는 문과생들이 공부할 수학의 난이도를 한참 높여놓은 주범이다. 세상이 이산적으로 얼마든지 설명이 가능했다면 통계적 방법론은 사뭇 달라졌을 것이지만, 현실은 그렇지 않다. 문과에서도 미적분을 가르쳐야 한다는 목소리가 교수들 사이에서 끊임없이 나오는 이유 역시, 인간 사회가 갖고 있는 연속적인 측면에 숫자를 가지고 대응하려면 적분을 알아야 하기 때문이다. 그나마 다행인 것은, 이제부터 살펴보게 될 확률분포의 내용들은 설령 연속형 확률변수라 할지라도 ~~고등학교 때처럼~~ 골치 아픈 적분 문제를 물어보지는 않는다는 것이다. 그런 건 이제 수학과의 수학굇수들에게 맡겨 놓으면 된다. 방법론으로서의 요점은 확률변수가 연속형일 때에는 구간을 잡아놓고 그 면적으로 확률 계산을 한다는 것뿐이다.

3. 확률 분포

어떤 변수가 특정한 여러 값들이나 일정한 구간 사이에서 퍼져 있는 모양을 분포(distribution)라고 부를 수 있다면, 확률분포는 어떤 확률변수가 그 확률함수에 의거하여 퍼져 있는 모양이라고 말할 수 있다. 분포는 통계학의 어디서든 쓰일 수 있지만, 특히 추론통계학에서 중요하게 취급된다. 그 이유는 어떤 값이나 구간은 다른 값이나 구간에 비해서 더 관측될 확률이 높으며, 추론을 하는 과정에서 이런 차이를 확률의 관점에 입각해 관리해야 하기 때문이다. 자신의 추론의 근거로 삼은 표본이 특이하게 이상한 표본이라면 추론의 논리 전체가 무너지니, 자신이 뽑은 표본이 특이할 확률이 안심할 정도로 낮음을 보여주면 되는 것이다. 이는 추론통계학의 평균의 표본분포(sampling distribution of the mean) 개념에서 중요하다.

일반적으로 확률분포가 소개될 때에는 아래와 같이 이산확률분포(discrete probability distribution)와 연속확률분포(continuous probability distribution)의 두 가지로 소개되고, 각각 위에서 소개한 이산형 확률변수와 연속형 확률변수로부터 얻어진다. 사회통계 커리큘럼에서는 전자보다는 후자에 초점을 맞추며, 사회조사분석사 자격증 시험범위에서는 그보다는 조금 더 전자에도 신경을 써서 소개하는 경향이 있다. 하지만 두 분포는 상호배타적일지언정 아주 포괄적인 것은 아니어서, 둘 중 어느 쪽으로도 분류될 수 없는 확률분포도 존재한다.

그러나 일반적이지 않은 커리큘럼의 경우(…), 이산 및 연속확률분포 외에도 둘 이상의 확률변수를 결합시킨 확률분포에 대해서 개관하고 넘어가는 경우가 있다. 따라서 이에 대해서 먼저 대강의 논리로 소개한 뒤, 그 다음에 본격적으로 이산 및 연속확률분포를 설명하는 순서를 택할 것이다.

3.1. 결합확률분포

간혹 사회통계 시간에 확률 이론을 소개하면서 결합확률(joint probability)과 조건부확률(conditional probability)까지 커리큘럼에 포함시키는 경우가 있는데, 이런 강의에서는 확률분포를 다루면서 결합확률분포(joint probability distribution)와 조건부확률분포(conditional probability distribution)까지 소개할 가능성이 높다. 일단, P(X)라는 이산 또는 연속형 확률변수와 P(Y)라는 이산 또는 연속형 확률변수가 두 개 있다고 해 보자. 여기서 결합확률은 P(X⋂Y)로 표시되며, X_i 및 Y_j의 두 사건이 함께 발생할 확률을 말한다. 한편 조건부확률은 P(X|Y)로 표시되며, P(Y)에서의 사건 Y_j가 '사전에' 발생했다는 조건으로 표본공간을 축소시킨 상태에서 P(X)에서의 사건 X_i가 '사후에' 발생할 확률을 말한다.[18]

여기서 결합확률분포는 두 확률변수의 결합확률을 나타낸 분포이다. 이산형 확률변수 P(X＝[math(x)])와 P(Y＝[math(y)]) 두 개를 결합시킨 결합확률분포는 다음과 같이 나타난다.

<colbgcolor=#EEEEEE>　　X Y	[math(x)]₁	[math(x)]₂	[math(x)]₃	…	합계 (Σ)
[math(y)]₁				…	<colbgcolor=#B7F0B1>
[math(y)]₂				…
[math(y)]₃				…
…	…	…	…	…
합계 (Σ)					1

저기서 ■ 색상으로 칠해져 있는 부분은 주변확률분포(marginal probability distribution)라고 따로 떼어서 설명되며, 하나의 확률변수가 특정 실수 값/구간으로 고정되어 있을 때 다른 확률변수가 가질 수 있는 모든 확률의 실수 값/구간을 말한다. 이때 이산형 확률변수라면 위 표에서처럼 합계(Σ)가 될 것이며, 연속형 확률변수라면 위 표와는 달리 적분(∫)이 될 것이다. 확률변수가 위 표에서처럼 2개뿐이라면 이변량(bivariate)이라고 불리기도 하며, 위 표와는 달리 3개 이상이라면 다변량(multivariate)이라고 불리겠지만, 기본 논리는 이런 식이다.

가장 간단하게 주변확률분포를 설명할 때는 두 확률변수 P(X)와 P(Y)가 서로 독립임을 가정한다. 즉 두 확률변수 간에 상관관계가 존재하지 않는다고 전제한다. 이 전제가 편한 이유는, 위 표에서의 특정한 셀에 해당하는 확률인 P(X＝[math(x)]_i⋂Y＝[math(y)]_j)를 구할 때 간단히 P(X＝[math(x)]_i)×P(Y＝[math(y)]_j)의 곱계산만 하면 끝나기 때문이다. 만일 두 확률변수 사이에 상관이 존재한다면 그때는 조금 복잡해진다. 하나의 확률변수가 변할 때 다른 확률변수가 같은 방향으로, 혹은 반대 방향으로 영향을 받아서 변할 수 있기 때문이다.

이때 두 확률변수의 분산의 기댓값 사이에서 공분산(covariance)이라는 현상이 새롭게 나타나므로, 이를 추가로 보정해 주어야 한다. 공분산을 구하려면, 두 확률변수가 각각의 기댓값으로부터 떨어져 있는 편차(deviation)들인 {X－E(X)}와 {Y－E(Y)}를 서로 곱해준 후, 그 값들의 평균의 기댓값을 구하면 된다(Cov(X,Y)＝E[{X－E(X)}×{Y－E(Y)}]). 공식을 외우고만 있다면야 손으로 직접 풀 수도 있겠지만, 엑셀한테나 시킬 법한 수준으로 매우 번거롭다는 게 문제. 공분산은 정적 상관에서는 (＋) 값, 부적 상관일 때는 (－) 값을 가지며, 두 확률변수가 서로 독립일 경우 공분산은 0이지만, 공분산이 0이라 해서 항상 서로 독립이 되지는 않는다.

상관 분석에 대한 지식이 있다면 그럼 상관계수(correlation coefficient)는 뭐냐고 생각할 수도 있는데, 공분산을 두 확률변수의 표준편차의 곱으로 나누어 주면 상관계수가 얻어진다. 이는 즉 공분산을 표준화한다는 것으로, 단위가 서로 다른 확률변수들 사이에서도 상관의 크기를 보여줄 수 있도록 하는 조치다. 짧게 말하자면 상관계수는 공분산의 상위호환. 그래도 공분산 자체는 향후 공분산분석(ANCOVA; analysis of covariance)에서도 활용되고 있으므로 여전히 중요한 위상을 차지한다. 한편으로 공분산은 여러 표본들의 표본분산을 한꺼번에 계산하는 합동분산(pooled variance) 개념과도 다르므로 혼동해서는 안 된다.

한편 조건부확률분포는 언뜻 조건부확률의 식 P(X|Y)＝P(X⋂Y)/P(Y)와 크게 다르지 않아 보이게 소개된다. 그러나 여기서 차이점이 있다면, 분모의 확률변수 P(Y)를 Y의 주변확률분포로 대체한다는 것이다. 이것이 의미하는 바는, 이미 발생한 사건은 확률변수에서 고정시켜 놓고, 이때 다른 확률변수가 가질 수 있는 모든 확률을 합계(Σ)하든 적분(∫)하든 해서 표본공간으로 삼겠다는 것이다. 그리고 그 상태에서 두 확률변수 속 사건들의 결합확률을 본다는 얘기. 당연히 조건부확률분포를 알고자 한다면 먼저 주변확률분포에 대한 정보가 있어야 한다.

3.2. 이산확률분포

이산확률분포는 같은 사회과학이라 할지라도 전공분야에 따라 강조될 수도 있고 강조되지 않을 수도 있다. 경영학 쪽에서는 유독 접할 일이 많지만 사회학 쪽에서는 이름만 듣고 넘어가는 수준이다. 이는 사회현상을 분석하고자 할 때는 연속확률분포에 의지할 일이 많은 반면, 어떤 중요한 의사결정을 해야 하거나 생산직 실무에서 일할 때는 이산확률분포가 도움이 되기 때문일 것이다. 사회조사분석사 2급 필기 시험범위에서는 이산확률분포 역시 비중 있게 포함되어 있다.

이산확률분포는 그 이름부터 굉장히 낯설고 거리감 있어 보이는 분포들이 많다. 그러나 간지나는(?) 이름들과는 달리 막상 뜯어보면 문제의식 자체는 상당히 단순한 경우가 많다는 반전이 있다. 그리고 손으로 계산할 경우 의외로 제곱연산이나 조합이 등장해서 계산하기 매우 싫어진다는 또 하나의 반전도 있다(…). 여기서는 각각의 분포들의 이름에 익숙해지는 것과 그 핵심 논리가 무엇인지 정도까지만 다루기로 한다.

베르누이분포(Bernoulli distribution)
언뜻 어려운 분포일 것 같지만, 대학생들과 대학원생들을 유치원생 취급하는 분포다. 베르누이분포는 표본공간에 상호배타적인 두 가지 사건만이 존재하는 시행을 단 한 번 실험했을 때 얻어진다. 짧게 말해, 동전 한 번 던지면 그게 바로 베르누이분포다. 동전의 앞뒷면 외에도 합격/불합격, 당첨/탈락, 성공/실패, 승리/패배, 참/거짓, 패스/논패스 등등 이가(二價)적인 논리를 활용하는 상황에 적용된다.[19] 두 사건을 각각 p와 q라고 하면 p＋q＝1이고, p＝1－q이며, q＝1－p가 된다는, 수포자들도 웃으면서 이해할 수 있는 원리들이 나온다.

이항분포(binomial distribution)
베르누이분포가 한 번 시행하는 경우를 다룬다면, 이제 이항분포는 n번 시행하는 경우까지 확장한다. 다시 말해, 서로 독립인 베르누이분포를 모두 합치면 이항분포가 된다. 윷놀이에서 윷을 100번 던져서 도개걸윷모가 나오는 횟수를 사건으로 삼는 경우에 쓰일 수 있으며 실제로 이항분포를 윷놀이로 설명하는 강의도 있다.[20] 이항분포는 p와 q가 50:50에 가까워질수록 정규분포에 근사하며, n번 시행할 때의 확률함수는 P(X＝[math(x)])＝_nC_[math(x)]p^[math(x)]q^{n－[math(x)]}이지만, 조합과 제곱연산의 부담이 극심하므로(…) 이항분포를 가르칠 때는 평균과 분산의 공식에 초점을 맞춘다. 평균은 시행 수에다 성공확률을 곱하면 되고(np), 분산은 여기에 실패확률까지 곱하면 된다(npq). 참 쉽죠?

푸아송분포(Poisson distribution)
어떤 시간이나 공간과 같은 관심의 단위 속에서 사건이 발생할 확률을 다루는 확률분포. '어떤 마을' 에서 일어나는 범죄의 수가 몇 건 이상일 확률, '어떤 책' 에서 오탈자가 몇 건 이상 발견될 확률, 어떤 콜센터가 '하루 종일' 잘못 걸린 전화를 몇 건 이상 받을 확률, 군대에서 '한 해 동안' 탈영병이 몇 명 이상 생길 확률 등을 그 주제에 대한 기존의 자료가 주어져 있을 때 계산할 수 있다. 푸아송분포에서 평균과 분산은 서로 같으며, 확률함수에는 제곱연산에다 심지어 [math(e)]라는 더러운 알파벳(…)이 끼어있기 때문에 숫자 대입해 가며 손으로 계산할 일은 없다.

사실 푸아송분포와 이항분포는 서로 굉장히 밀접한 관련이 있다. 푸아송분포는 이항분포를 관심의 단위(주로 시간) 속에서 써먹기 위해 나온 변종이다. 기존의 이항분포 논리는 관심의 단위 당 사건이 발생할 확률을 계산할 때 '사건은 1회 발생한다' 를 전제하고 있는데, 여기서 1회라는 제약을 없앤 게 푸아송분포다. 또 이항분포라 하더라도 시행(n)이 충분히 많고[21] 성공확률(p)이 충분히 낮다면 푸아송분포로 그 이항분포의 근사값을 구할 수 있고, n과 p 중 하나 또는 모두를 모른다 해도 이미 둘을 곱한 값인 평균(np)이 알려져 있다면 그것만 갖고도 그 이항분포의 확률계산이 가능하다. 다시 말하면 이미 우리에게 평균에 대한 정보가 주어져 있다면 웃으면서 푸아송분포를 써먹을 수 있다. "...과거의 자료에 따르면 ○○○는 평균 Λ개(회)임이 알려져 있다" 따위를 구구하게 알려주는 시험문제가 나온다면 바로 이것.

기하분포(Geometric distribution)
기하분포도 이항분포처럼 성공 혹은 실패의 두 사건을 고려하지만, 이항분포가 정확히 n번 시행한다는 식으로 표본공간을 한정하는 것과는 달리, 기하분포는 될 때까지 이 악물고 반복한다. 무한한 표본공간 속에서 내내 실패만 반복하다가 [math(x)]번째 시행만에 처음으로 성공할 칠전팔기(?)의 확률을 계산하는 게 바로 이 기하분포. 물론 성공 확률인 p가 낮은 상황에서도 자주 쓰이지만 p가 높음에도 재수없게 계속 실패하게 될 확률도 계산 가능하다. 가장 쉽게 떠올릴 만한 사례는 프리킥이나 홀인원, 자유투처럼 스포츠에서 많다. 단, 기하분포는 최초의 성공이 [math(x)]번째에서 나타날 확률을 다루므로, 일단 성공하고 난 이후로는 고려하지 않는다. 그래서 세 번만에 성공할 확률을 계산할 때는 두 번만에 성공할 확률까지 포함하지 않는다.

기하분포는 다행히 손으로 계산할 수 있는 상황이 많다. 기하분포의 확률밀도함수는 [math(x)]번째 시행에서 성공한다고 할 때 P(X＝[math(x)])＝(1－p)^{[math(x)]－1}p로 표현되며, 다른 분포들보다 굉장히 직관적이다. 즉 실패할 확률(1－p)이 [math(x)]－1만큼 제곱연산되었다는 것은 그만큼 실패가 줄창 반복되었다는 얘기고, 거기에다 마침내 [math(x)]번째 시행에서 성공하게 된 확률(p)을 다시금 곱해줬다는 것이다. 평균의 경우에도 성공확률에 간단히 역수만 취해주면 되고(1/p), 분산 또한 실패확률을 성공확률의 제곱에 비교하기만 하면 된다((1－p)/p²).

중요한 점은 기하분포에서 사전시행의 이력이 사후시행에 영향을 주지 않는다는 것이다. 만일 [math(x)]번 시행을 했는데 끝내 성공하지 못했다고 해 보자. 이 경우 포기하지 않고 기존 [math(x)]번에 추가로 k번의 시행을 실험할지라도 여전히 성공하지 못하는 상황의 확률은, 애석하지만 그냥 처음부터 k번만큼 시행할 때 성공하지 못할 확률과 동일하다는 얘기다(P(X≥[math(x)]＋k|X≥[math(x)])＝P(X≥k)). 이를 무기억성(memoryless property)이라고 한다. 이는 확률계산에 매우 편리한 성질이지만, 기하분포는 여러분이 아이템 강화에 몇 번을 실패해서 얼마를 날려먹고 시간을 얼마나 허비했는지 전혀 기억해 주지 않는다는 얘기다(…). 기하분포처럼 무기억성을 갖는 다른 분포는 연속확률분포에 해당하는 지수분포(exponential distribution)밖에는 없고, 그나마도 일반적인 방법론 커리큘럼을 벗어난다.

음이항분포(negative binomial distribution)
모든 것이 기하분포와 동일하지만,[22] 이번에는 주어진 시행에서 최초 한 번의 성공이 아니라 r번의 여러 성공을 거둘 확률이 얼마나 되는지 따진다. 그렇기 때문에 [math(x)]번째 시행에서 r번째 성공할 확률을 찾고자 한다면, 이번에는 마지막은 무조건 성공이라고 치고 [math(x)]－1번의 이전 시행에서 r－1번 성공하게 되는 모든 상황을 따져보게 된다. 확률밀도함수에 다시금 조합이 등장하므로 굳이 계산하는 건 컴퓨터에게 맡기는 게 편하다. 흥미로운 것은 평균과 분산인데, 평균은 성공확률에 역수를 취하는 것까진 기하분포와 같으나 여기에 r번의 성공을 곱해준다는 차이가 있고(r/p), 분산 역시 기하분포와 똑같이 계산하되 r번의 성공을 곱해준다(r(1-p)/p²). 즉 r에 1을 대입하면 고스란히 기하분포로 변하며, 이는 음이항분포가 기하분포의 특수한 변종이자 상위호환임을 보여준다.

초기하분포(Hypergeometric distribution)
초기하분포는 기하분포처럼 무한한 상황을 다루진 않으며, 이항분포나 기하분포처럼 각 시행이 서로 독립인 것도 아니다. 즉 초기하분포는 유한한 모집단에서 비복원추출을 함으로써 앞 시행이 뒤 시행의 확률에 영향을 줄 때(종속시행)의 확률분포다. 교과서에서 흔히 보던 '공주머니에서 색색깔의 공을 꺼내는 확률' 이야기가 바로 이 초기하분포다. 초기하분포로 설명될 수 있는 가장 유명한 예는 바로 로또 당첨 확률로, 45개의 공 중에서 6개의 공을 비복원추출하는 복권이기 때문이다.

초기하분포의 확률밀도함수는 조합이 잔뜩 등장하므로 숫자가 조금만 커져도 계산이 매우 귀찮아진다. 평균과 분산은 그보다 훨씬 쉬운 축. 공주머니에 담긴 공의 수(모집단)를 N이라고 하고, 꺼낼 공의 수(표본)를 n이라고 하고, 올바른 색상의 공의 수를 m이라고 하자. 성공확률은 당연히 올바른 색상 공의 수에 대한 전체 공의 수(p＝m/N)이고, 평균은 언제나처럼 표본의 수에 성공확률을 곱하면 되며(np), 분산은 평균에다 실패확률을 곱한 뒤(np(1－p)) 여기에 추가로 (N－n)/(N－1)을 곱해서 보정해 주면 된다. 초기하분포는 모집단이 충분히 크기만 하다면 이항분포에 근사한다.

그 외에도 위에서 자주 사례로 들었던 주사위 던지기는 엄밀히 말하면 균등분포(uniform distribution)에 속한다. 모든 눈이 나오는 사건들의 확률이 전부 1/6로 똑같기 때문. 하지만 단 한 번만이라도 주사위를 던지면 지면과의 충돌로 인해 마모가 발생, 매우 매우 미세한 수준에서 확률이 서로 틀어질 위험이 있다. 균등분포는 이산형일 때도 있고 연속형일 때도 있으며, 대부분 의미 있게 다루지는 않는다. 상기했듯이 확률분포에서 중요한 것은 각 실수 값들의 확률이 서로 다르다는 점인데 균등분포는 그런 고려를 할 필요가 없기 때문.

3.3. 연속확률분포

연속확률분포는 말 그대로 연속형 확률변수의 구간별 빈도를 분포로 나타낸 것이며, 사실 앞에서 설명했던 이산확률분포들은 연속확률분포의 중요성에 대자면 거의 깔짝대는 수준밖에는 되지 않는다. 그 정도로 연속확률분포는 중요하다. 앞에서 연속적인 성질을 소개할 때 사람들의 키를 예로 들었는데, 실제로 키라는 측정치가 실수 값을 갖고 나온다는 것은 알더라도 어떤 실수 값으로 튀어나올지는 쉽게 말할 수 없다. 주사위 눈이 나올 확률은 여섯 사건 중 하나라고 할 수 있어도, 특정한 키의 값이 얻어질 확률은 들여다보면 들여다볼수록 무한하게 쪼개진다.

물론 기술통계학 문서에서 소개하듯이, 이 경우 구간을 잡아서 각각의 면적을 구하는 방식을 택할 수 있다. 그런데 여기서 해야 할 일은 하나하나의 실수 값들을 표본공간에서 추출해 와서 전부 늘어놓고 각각의 확률을 보여줘야 한다. 그럼 각 구간들의 간격을 먼지만큼 짧게 나누면 어떻게든 개별 실수 값들이 얻어질 수 있을까? 불행히도, 구간을 아무리 잘게 자르는 것을 반복해도 이산확률분포처럼 각각의 실수 값들에 확률을 대응시킬 수는 없다. 결국 수학자들은 연속형 확률변수에서는 어떤 특정한 하나의 값이 가질 확률이 0이라고 판단했다. 그리고 연속형 확률변수에서 표본공간과 확률공간 사이에 다리를 놓기 위해서는 미적분이라는 특수한 공법이 필요하다는 결론을 얻었다.

여기서 미적분학에 대한 엄밀한 공부는 권장되기는 해도 필수는 아니다.[23] 대개의 수포자들의 눈에 비친 연속확률분포는 그저 은근한 곡선을 그리며 x축 위로 흘러가는 잘 빠진 선처럼 보인다(…). 굳이 지식을 더한다면 그저 특정한 실수 값에서의 확률이 아니라 특정 실수 구간에서의 확률을 구하면 된다는 정도만 어렴풋이 배울 뿐이다. 실수 값들에 일일이 확률을 대응시키는 것은 손으로 할 수 있다 해도, 적분(∫)이 어떻게 구간의 확률을 계산하는지는 본격적인 수학의 영역이다. 여기서는 구체적인 내용을 다루지는 않겠으나, 미적분에 소양이 없는 문과생들이라 하더라도 어쨌거나 그 은근한 곡선의 어떤 지점이 높아질 수 있고 바로 그 부분에 주의를 기울여야 한다는 점 정도만 숙지해도 많은 통찰을 얻을 수 있다.

그런데 문이과를 막론하고 연구에 몸 담은 사람들이 입을 모아 강조하는 것이 있다면, 세상은 의외로 연속성의 언어로 돌아간다는 것이다. 외부 세계를 관찰하고 그 성질을 확률을 기반으로 파악하다 보니, 이산적인 것은 별로 없고 연속적인 것들이 많더라는 얘기다. 더욱 놀라운 것은, 이렇게 관찰한 데이터들을 전부 모아놨더니 평범할수록 흔해지고 극단적일수록 드물어진다는 뜻밖의 공통점이 드러났다는 것.[24] 당장 위에서 소개했던 바 '사람들의 키' 라는 측정치 역시, 막상 데이터를 모아 보면 가장 흔한 관찰값은 중간 키 근처로 모일 뿐이고, 극단적으로 키가 작은 일부 장애인들이나 서장훈 같은 거인들은 그만큼 사회에서 드물게 보인다. 이런 이유로 인해 정규분포는 연구방법론에서 어마어마한 몸값을 자랑하게 되었고, 학자들의 맹렬한 연구의 대상이 되었다.

3.3.1. 정규분포와 그 표준화

가우스 분포(Gaussian distribution)라고도 불리는 정규분포는 여러 연속확률분포들 중에서도 매우 강력하고 깔끔하며 아름다운 분포다. 위에서도 언급했지만 정규분포의 가장 핵심적인 메시지는 "평범할수록 흔해지고 극단적일수록 드물어진다" 는 데 있다. 그렇기 때문에 정규분포의 첫인상은 가운데 부분이 불룩 솟아오른 종 모양이며, 양쪽 끄트머리가 x축에 거의 붙을 듯 말 듯한 수준으로 낮게 기어가는 것을 볼 수 있다. 가장 높은 정상부를 기준으로 보면 정규분포의 양쪽은 서로 대칭을 이루고 있으며, 따라서 왜도(skewness)도 0이고, 자연히 정상부에서는 평균(mean)과 중앙값(median), 최빈값(mode)이 모두 일치한다.

정규분포에도 여러 모양이 존재할 수 있다. 정규분포의 성질을 깨뜨리지 않으면서도 그 모양을 결정하는 두 가지 중요한 모수가 바로 평균과 분산이다. 먼저 평균은 정규분포의 최정상부의 위치를 결정한다. 정규분포 두 개를 서로 겹쳤다고 가정하고, 두 분포의 분산이 서로 같으나 평균은 서로 다르다고 가정하자. 이때 평균이 작은 정규분포는 평균이 높은 정규분포의 왼쪽에 겹쳐져 놓인다. 물론 오른쪽에 놓인 정규분포는 평균이 더 크다는 것. 다음으로 분산은 정규분포의 눌려 퍼진 모양을 결정한다. 마찬가지로 평균은 같으나 분산이 서로 다른 정규분포 두 개가 겹쳐졌다고 가정하자. 두 정규분포의 최정상부는 x축에서 같은 위치에 놓이지만, 분산이 더 클수록 최정상부의 높이가 내리눌리며 양 옆의 꼬리가 들려올라가게 되고, 반대로 분산이 작을수록 최정상부가 높아지면서 양 옆의 꼬리도 x축에 바짝 달라붙게 된다. 그러나 아무리 분산이 작아져도 꼬리가 x축에 완전히 붙는 일은 없으며, 정규분포의 가능한 모든 상황(＝표본공간)은 음의 무한대에서 양의 무한대로 유지된다. 단지 그 확률이 극악하게 낮아질 뿐.

그런데 분산은 그 정규분포가 전반적으로 얼마나 퍼져 있는지도 알려주지만, 특정한 값이 평균으로부터 어느 정도만큼 떨어져 있는지를 알려줄 수도 있다. 물론 특정한 값 하나가 가질 확률은 무의미하지만, 전반적으로 흩어진 모양을 고려했을 때 그 값이 평균으로부터 '멀리 떨어진' 것인지, 아니면 그만하면 '꽤 가까운' 것인지는 알 수 있는 것이다. 예컨대 평균 키가 170cm인 집단에서 180cm 값이 얼마나 떨어져 있는지는, 그 집단의 키 데이터가 얼마나 사방팔방으로 튀는지도 함께 고려할 필요가 있다. 185cm인 사람들과 155cm인 사람들이 판을 치는 집단에서는 '꽤 가까운' 키가 되지만, 대부분이 167~173cm에서 왔다갔다하는 집단에서는 놀랄 만큼 '멀리 떨어진' 키인 것이다.

이를 일반화하기 위해, 우리는 분산에 루트를 씌운 표준 편차를 활용해 각 값들이 평균으로부터 떨어진 상대적 거리를 판단할 수 있다. 비유하자면 정규분포의 중앙에 줄자의 끝을 대고서 꼬리 방향으로 줄자를 쭉 빼는데, 그 줄자의 눈금이 표준편차 크기에 맞게 그려지는 셈이다. 그래서 정규분포에서 취해지는 모든 실수 값들이 자기 주소를 부여받을 때는, 공식적으로 평균을 기준으로 잡아서 얼마나 떨어져 있는지를 표준편차 눈금으로 부여받는다(μ±Xσ). 예를 들어 μ＋0.46σ라는 주소지는 그 정규분포의 최정상부(μ)에서 오른쪽으로 0.46블록 눈금만큼 떨어진(0.46σ) 북적북적한 동네를 의미한다. 반대로 μ－3.08σ라는 주소지는 최정상부 왼쪽 꼬리의 저편에 외따로 위치해 있는 쓸쓸한 격오지를 의미하게 된다.

이렇듯 쌈빡해 보이는 정규분포지만, 위의 주소지 표기 방식에는 한 가지 치명적인 단점이 있다. 데이터의 단위가 서로 동일하지 않으면 호환이 안 된다는 것이다. 서로 다른 두 정규분포를 비교해야 하는데, 한쪽은 사람들의 키를 cm 단위로 측정한 반면, 다른 쪽에서는 in 단위로 측정해 놓은 상황이라면, 제 아무리 표준편차를 활용한 거리재기를 적용해도 직접 비교하는 게 불가능하다. 엄밀히 말하면 저 μ±Xσ 주소 시스템도 사실은 그 뒤에 단위라는 꼬리표가 달랑거리고 있고, 어떻게든 단위를 서로 같게 만들어 주어야 제대로 된 비교가 가능하다. 서로 눈금이 다른 줄자를 함께 대어볼 수는 없기 때문이다. 위의 주소 시스템에서 굳이 분산이 아니라 표준 편차를 눈금으로 삼았던 것도, 사실은 분산이 단위까지 함께 제곱시키기 때문에 저 혼자 cm² 같은 엉뚱한 차원으로 날아가 버리기 때문이다(…).

단위를 같게 만드는 절차를 수학에서는 표준화(standardization)라고 부른다. 어떤 단위를 적용했든 간에 공통적인 계산 절차를 거쳐서 같은 목적지에 도달하게 한다면, 거기서는 비로소 제대로 된 비교가 가능한 것이다. 결국, 모든 데이터에서 같은 계산을 통해 한 자리에 모일 수 있는 절차를 마련해야 한다. 그런데 표준화랍시고 정규분포들의 데이터를 마음대로 주물러도 괜찮을까? 여기서 정규분포의 강력함이 빛을 발한다. 정규분포는 모든 데이터에 동일한 가감승제를 적용하더라도 최정상부의 위치만 수평이동할 뿐 정규성 자체는 잃지 않는다. 이 점에서 통계학자들은 정규분포 표준화의 길을 찾았다. 흔히 N( 0, 1)이라고 불리는 표준정규분포(standard normal distribution)가 세상에 모습을 드러낸 것이다. 그리고 표준정규분포는 학자들로부터 '단위 문제에서 자유롭다'(scale-free)는 찬사를 받았다.

표준정규분포는 모든 정규분포들이 저마다 갖고 있는 평균을 활용한다. 이때 모든 관찰값들에서 평균을 감산하면(X_i－μ) 그 정규분포는 정규성을 잃지 않으면서도 최정상부가 0에 위치하게 되고, 어떤 정규분포든 간에 0이라는 집결지에 똑같이 모여들게 할 수 있다. 즉 표준정규분포의 평균은 항상 0이다. 다음으로, 모든 정규분포들이 저마다 갖고 있는 표준 편차를 활용한다. 이때 0이라는 집결지에 모여든 모든 관찰값들을 표준편차로 나누어 주면((X_i－μ)/σ), 그 정규분포들은 여전히 정규성을 잃지 않으면서도 표준편차라는 통일된 단위를 적용받게 된다. 즉 표준정규분포의 표준편차는 그 자체로 단위이므로 1이 된다. 이것을 바꿔 말하면 특정한 실수 값과 평균 사이에 존재하는 거리(X_i－μ)를 신뢰할 수 있는 눈금(σ)으로 재어 본다는 의미이기도 하다. 이렇게 해서 나타난 것이 바로 z-값(z-value)이다.

이제 표준화된 정규분포들은 전부 평균이 0, 표준편차가 1인 똑같은 종 모양으로 겹쳐지게 된다. 더 퍼지고 덜 퍼지고 하는 차이도 없다. 주소지 표기 방식도 완전히 새롭게 바뀐다. 기존의 정규분포에서는 그 분포 내에서 자기들끼리만 알아듣던 μ±Xσ 시스템을 썼다면, 표준정규분포에서는 z-값이라는 기준을 활용하는 μ±Zσ 시스템을 쓰게 된다.[25] 그리고 모든 분포에서 표준편차가 똑같기 때문에 어떤 관찰값이 "나는 영점에서 Z표준편차만큼(＝표준편차의 Z배만큼) 떨어져 있는 실수야" 라고 소개하면 어느 분포에서든 다 알아들을 수 있다. 여기서도 마찬가지로 Z＝3.72라면 그 정규분포에서 저 멀리 오른쪽에 외따로 떨어져 있는 주소가 될 것이고, Z＝－0.14라면 정규분포 꼭대기에서 살짝 왼쪽의 주소가 될 것이다.

현실적으로는 Z＝±1.96 주소지가 학자들에게 매우 매우 유명한 이정표다. 이것은 추론통계학에서 학자들이 표본을 활용해 모집단을 추론할 때 발생하는 오차의 한계를 관리하기 위해 0.05의 유의수준(significance level)을 암묵적으로 합의했기 때문이다. 유의수준으로 오차를 관리한다는 말은, 분석을 통해 얻어진 통계량이 표준정규분포의 평균 0으로부터 어지간히 멀리 떨어진 주소에 놓이지 않는 이상은 영가설이 참일 거라 고집하겠다는 얘기다. 여기서 '멀리 떨어져 있다' 의 기준을 정하기 위해서 영가설을 잘못 기각할 확률을 0.05(즉 5%) 이하로 관리하고자 했고, 표준정규분포에서 그에 맞는 거리에 표지판을 꽂으려다 보니 Z＝±1.96 주소에다 꽂게 된 것. 논문에서 '별' 이 띄워지느냐 마느냐도 z-값이 ±1.96의 밖에 꽂히느냐 여부로 결정된다.

그런데 학자들이 유의수준에 따라 표지판 꽂을 기준을 찾게 된 과정도 그렇지만, 표준정규분포는 흔히 면적을 통한 확률 계산에 활용된다. 연속형 확률분포는 특정 값 자체가 갖는 확률이 의미가 없으며[26] 확률을 계산할 때는 늘 P(a≤X≤b) 형태의 a~b 사이의 구간을 잡아 계산한다는 점을 상기해 보자. 표준정규분포에서는 주소지를 z-값으로 통용하므로 P(a≤Z≤b) 형태로 바꾸어 나타낼 수 있을 것이다. 여기서 표준정규분포는 굉장히 중요한 힌트를 제공하는데, 상기한 바와 같이 평균을 기준으로 좌우대칭이라는 점이다. 연속형 확률분포에서 곡선 아래 모든 면적의 합은 1이 되므로, 결국 평균을 기준으로 왼쪽 절반의 확률은 0.5, 오른쪽 절반의 확률은 0.5가 된다(P(Z≤0)＝P(Z≥0)＝0.5).[27]

여기서 문제는, z-값은 a라는 어떤 표지판을 꽂은 지점의 왼쪽 면적의 확률(P(Z≤a))만을 알려준다는 것이다. 그래도 기초적인 수학적 논리를 동원한다면 다음과 같은 면적놀이(?)를 할 수 있다. 사회통계 중간고사 빈출 문제들도 대부분 여기서 나온다. 작정하고 출제하면 미친듯이 헷갈리게 낼 수 있다.

P(0≤Z≤a)＝P(Z≤a)－0.5
0에서 a에 이르는 양수 구간의 면적의 확률을 직접 구할 수는 없다. 하지만 a라는 지점에다 표지판을 꽂은 뒤 그 왼쪽의 모든 면적의 확률을 구할 수는 있다(P(Z≤a)). 여기서는 평균보다 작은 음수 구간의 확률에는 관심이 없지만, 다행히 평균을 기준으로 왼쪽 절반의 확률이 0.5라는 사실은 알고 있다. 그렇다면 a보다 작은 모든 면적에서 왼쪽 절반을 빼 주면 당초 원하던 양수 구간의 면적의 확률이 나온다.
P(－a≤Z≤a)＝2×P(0≤Z≤a)
여기서의 구간은 평균을 기준으로 동일한 거리만큼 떨어져 있으며, z-값이 음수인 구간을 포함할지언정 면적 자체는 음수 값이 의미가 없다. 평균 아래쪽 구간의 면적(P(－a≤Z≤0))이나 평균 위쪽 구간의 면적(P(0≤Z≤a))이나 어차피 똑같은 면적이다. 그리고 평균 위쪽 구간의 면적을 구하는 법은 바로 위에서 이미 확인했다. 결국 평균 위쪽 구간의 면적 하나만 구해서 그걸 두 배로 늘려 주기만 하면 된다.
P(a≤Z≤b)＝P(Z≤b)－P(Z≤a)
양수 구간의 a~b 면적이지만, z-값이 b보다 작은 모든 면적(P(Z≤b))은 음의 무한대에서 b라는 양수 값까지의 모든 구간을 가리키고, z-값이 a보다 작은 모든 면적(P(Z≤a))은 음의 무한대에서 a라는 양수 값까지의 모든 구간을 가리키므로, 전자에서 후자를 빼면 후자에 해당하는 면적이 싹 사라져서 a~b에 해당하는 면적만 남는다. 간단히 말하면 더 큰 면적에서 더 작은 면적을 빼면 된다.
P(－a≤Z≤b)＝P(Z≤a)＋P(Z≤b)－1
양수 구간과 음수 구간을 모두 포함하며, 표지판이 꽂히는 지점이 서로 같지 않다. 하지만 상기했듯이 음수 구간이나 양수 구간이나 면적 자체는 양수다. 일단 평균을 기준으로 해서 크기가 서로 다른 두 조각으로 면적을 끊어놓자. 이 경우 음수 구간의 면적은 평균을 기준으로 양수 쪽으로 넘길 수 있고(P(0≤Z≤a)) 이것을 기존의 양수 구간의 면적의 확률(P(0≤Z≤b))에 합산하면 된다. 그런데 이 계산을 P(Z≤a)와 P(Z≤b)를 활용해서 진행하다 보면 모든 음수 구간의 면적의 확률이 쓸데없이 두 번 잡히게 되므로(0.5×2), 이를 감산해 주면(－1) 최종적인 확률이 얻어진다. 즉 a보다 작은 면적과 b보다 작은 면적을 합쳐서 1을 빼면 된다.
P(Z≤－a)＝1－P(Z≤a)
이번에는 a라는 지점이 음수이고 그 왼쪽 꼬리 면적을 구해야 한다. 이때 문제는 하술할 표준정규분포표(z-table)에는 음수 값이 없다는 점이다. 전체 면적의 확률이 1이라는 점을 생각하면, 좌우를 뒤집어서 양수 a의 왼쪽 면적을 구해놓고 전체에서 빼면 된다. 즉, (－) 부호를 떼 놓고 일단 면적을 계산한 뒤 1에서 그 값을 빼면 된다. 반대로 a라는 양수에 표지판을 꽂은 뒤 그 오른쪽의 확률을 구하는 것도 좌우를 뒤집으면 똑같은 문제다(P(Z≥a)＝P(Z≤－a)＝1－P(Z≤a)).

{{{#!folding [ 표준정규분포표 펼치기 · 접기 ]

}}}

Z	.0	.1	.2	<colbgcolor=#B7F0B1>.3	…	.9
<colbgcolor=#EEEEEE>0.0*	0.5000	0.5040	0.5080	0.5120	…	0.5359
0.1*	0.5398	0.5438	0.5478	0.5517	…	0.5753
0.2*	0.5793	0.5832	0.5871	0.5910	…	0.6141
0.3*	0.6179	0.6217	0.6255	0.6293	…	0.6517
0.4*	0.6554	0.6591	0.6628	0.6664	…	0.6879
0.5*	0.6915	0.6950	0.6985	0.7019	…	0.7224
…	…	…	…	…	…	…

위의 표준정규분포표는 z-값이 a로 알려졌을 때 그곳에 표지판을 꽂고 그 왼쪽의 모든 면적의 확률이 몇인지를 보여준다(P(Z≤a)).[28] 테이블에 음수 z-값은 없지만 당황하지 말고 위에서 소개한 대로 양수로 일단 찾은 뒤 1에서 빼면 되며, Z≥3.62인 극단적인 주소지는 더 찾을 것도 없이 그 왼쪽 면적이 0.9999라고 생각하면 된다. 나무위키 내부에 인용한 표 일부를 보면, Z＝0.43으로 나타났을 때 P(Z≤0.43)의 확률을 어떻게 찾는지 알 수 있다. 표를 읽으려면 z-값의 일의 자리에서 소숫점 둘째 자리까지의 정보가 필요하다. 가로행은 일의 자리에서 소숫점 첫째 자리까지, 세로열은 소숫점 둘째 자리에 대응되므로, 가로행에서 먼저 0.4*를 찾은 뒤 세로열에서 *.*3을 찾은 것이다.[29] 대응되는 셀의 숫자는 0.6664로 나타나며, 이것은 총면적 100% 중에서 Z≤0.43 구간의 면적에 해당하는 확률이 66.64%라는 의미가 된다(P(Z≤0.43)＝0.6664). 이것이 바로 연속형 확률변수에서 확률을 구하는 방식이다.

연속형 확률변수에 물론 (표준)정규분포만 존재하는 것은 아니다. 그 외에도 사회통계 커리큘럼에 속하는 다른 분포들로는 t-분포(student t-distribution), χ²-분포(Chi-square distribution), F-분포(F-distribution)를 들 수 있는데, 이제 겨우 간신히 표준 정규 분포에 도달한 시점에서는 여기까지 바로 이해하기가 쉽지 않을 수 있다. 어차피 이들도 전부 표준 정규 분포를 필요에 따라 이리저리 만지작거려서 만들어진 분포들이고, t-분포의 경우 추론통계학의 논리를 배우다 보면 조만간에 다시 접하게 될 것이며, 다른 두 분포도 마지막 단원인 분석 파트에서 교차표(crosstab; cross tabulation)를 활용하는 분석이나 분산 분석(ANOVA; analysis of variance)을 배울 때 또 보게 될 것이기에, 당장은 이런 게 있다는 정도만 기억해도 괜찮다. 특히 t-분포를 이해하려면 먼저 표본 분포(sampling distribution)라는 추론의 논리를 이해해야 하는데, 그러려면 추론통계학의 영역으로 넘어갈 필요성이 있다. 이제야 비로소 추론통계학을 배울 준비가 된 것이다.

4. 관련 문서

5. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -2px -11px"		<colbgcolor=#C1F3FF>📝 서론	<colbgcolor=#F7FFFF,#191919> 사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론( 이론적 조망) · 연구윤리
🔍 조사방법론 I	변인 · 정의 · 상관관계와 인과관계 · 실험( 실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
🔍 조사방법론 I	자료 · 자료수집( 면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II	표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계	통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법( 분산분석 · 회귀분석)

👔 공인 자격증	사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서	연구방법론 관련 정보
^{상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨}

}}}}}}}}} ||

[1] 예를 들자면 확률이 0이라면 그 사건은 절대 발생하지 않는다는 식으로 설명하는 경우. [2] 물론 정말로 수학적으로 거짓인 내용이 잘못 가르쳐져서 후학들을 오도한다면 그것은 학술적으로 큰 비용을 치르게 되므로, 통계적 방법을 채택하는 여러 학문분야마다 방법론을 전담하는 '통계 담당' 분과를 두고 있다. 예를 들어 한국심리학회의 경우 분과학회로서 측정평가 분과를 두고 있으며, 학술대회 때마다 통계 헬프데스크를 운영하게 하고 있다. [3] 굳이 말하자면 전적으로 빈도주의적(frequentist)인 접근을 따르고 있으며, 고전적 정의와 경험적·귀납적 정의 사이에서 왔다갔다한다고 볼 수 있겠다. [4] 전체 분의 부분 [5] 하나의 동전을 던지는 상황에서 분모에는 앞 혹은 뒤라는 두 가지만 들어갈 뿐이지, 동전이 측면으로 세워진 채 멈추는(…) 상황까지 굳이 고려할 필요는 없을 것이다. [6] 여기서 n번 던질 때 1/(2ⁿ)이라고 응답하는 것은, 던질 때마다 줄창 '뒤' 순서쌍만 나오는 결합확률에 대한 기댓값을 말한다. [7] 이 확률변수에서 가능한 상황 전체인 X 중에서 특정한 상황에 대응된 실수인 1, 즉 주사위의 모든 눈(X) 중 홀수 눈(1)이라는 특정 상황이 나올 확률(P). [8] 이 확률변수에서 가능한 상황 전체인 X 중에서 특정한 상황에 대응된 실수인 2, 즉 주사위의 모든 눈(X) 중 짝수 눈(2)이라는 특정 상황이 나올 확률(P). [9] 즉 주사위에서 홀수 눈이 나올 확률과 짝수 눈이 나올 확률은 1/2로 서로 같음. [10] 실제로 수포자들의 입장에서는 심지어 LaTeX 문법으로 수식을 쓰는 것 자체가 그 수식에 대한 심리적 장벽을 높인다. 본 문서에서도 이를 고려하여 r.1 버전 기준으로 해당 수식 문법을 최소한으로 사용하였다. [11] E(X)＝0×(1/8)＋1×(3/8)＋2×(3/8)＋3×(1/8)＝1.5 [12] V(X)＝{0²×(1/8)＋1²×(3/8)＋2²×(3/8)＋3²×(1/8)}－1.5²＝3－2.25＝0.75 [13] 어떤 대학교의 재학생 중 30명을 뽑았을 때 키가 '정확하게 170cm' 인 사람이 존재할 확률은 아무 의미가 없다. 수학적으로는 이론상 참값을 내는 게 가능하지만, 실생활에서 참값을 내는 것은 불가능하며 어떻게든 유효숫자 몇 자리 이내로 근삿값을 낼 수밖에 없다는 것도 같은 맥락일 것이다. [14] 간혹 이산적인 것과 연속적인 것을 측정 수준과 혼동하여 등간성과 비율성의 차이로 오해하면 안 된다. 등간 수준과 비율 수준은 무엇을 측정함에 있어 절대 영점이 의미를 갖는지의 문제이고, 곱셈과 나눗셈이 가능한지의 여부가 갈린다. 반면 이산적인 것과 연속적인 것은 표본공간 속 원소의 수를 셀 수 있는지 없는지의 여부이다. [15] 어떤 사람들은 이산적 자료를 디지털(digital)의 성질에, 연속적 자료를 아날로그(analog)의 성질에 비추어 설명하기도 한다. [16] 단순히 표본공간이 무한하다는 사실 자체가 연속형 확률변수를 가리키는 것은 아니다. 동전을 무한히 던지는 확률변수는 연속형이 아니라 이산형 확률변수에 속한다. 여기서의 요지는 인접한 단위 사이에서 실수 값들이 무한히 존재한다는 점이다. [17] 단, 이산형 확률변수에서도 확률밀도함수가 호환되며, 이 점에서 확률밀도함수는 확률질량함수의 상위호환이라고 볼 수도 있다. 그리고 사회과학계의 통계적 방법의 범위를 벗어나긴 하지만 누적분포함수(cumulative distribution function)는 확률밀도함수보다도 더 상위호환으로 취급된다. [18] 또는, 사건 Y_j가 발생할 모든 상황(＝표본공간) 중에서 사건 X_i와 사건 Y_j가 함께 발생할 결합확률(＝사건)이 얼마나 되는지 견주어 보는 확률이라고도 말할 수 있겠다. [19] 단, 두 사건의 확률 자체는 50:50이 아닐 수도 있다. [20] 단, 윷짝의 앞뒷면을 결정하는 확률은 동전처럼 50:50이 되진 않으므로, p와 q 각각이 기하학적·물리학적으로 확인되지 않는 이상에는 수식으로 정리하는 수밖에 없다. [21] 이항분포에서 시행이 크면 클수록 조합과 곱연산이 들어가는 함수식 특성으로 인해 계산이 매우 난감해진다. [22] 그럼에도 수학적으로는 상기했던 이항분포와 관련이 있어서 이름이 이렇게 붙었다. 음이항분포의 확률밀도함수를 만지작거리다 보면 이항분포의 확률밀도함수와 비슷하지만 조합에 음수값이 추가로 붙기 때문이라고. [23] 이 엄밀한 공부가 필수가 되는 대표적인 문과 학문이 바로 경제학이다. [24] 심지어 아예 대놓고 인위적으로 정규분포 모양이 나오게 만든 IQ나 수능 등급제도 있다. 물론 주사위를 두 개 던질 때의 눈의 합처럼, 이산적인 확률실험에서도 정규분포의 그림자가 어른거리는 경우가 굉장히 많다. [25] 위 문단에서 소개한 Z＝(X_i－μ)/σ 공식을 주물럭거리면 X_i＝μ＋Zσ 공식이 어렵지 않게 얻어지고, 평균은 0이고 표준편차는 1이므로 그냥 X_i＝Z이기도 한 것이다. 즉 z-값은 x축 위의 특정한 값인 X_i가 표준정규분포 속에서 스스로의 위치를 소개하는 숫자다. [26] 즉 P(Z＝1.96)＝0이라고 생각할 수 있다. [27] 또한 학자들은 평균으로부터 ±1~3σ만큼 떨어진 범위의 가운데 면적이 어느 정도가 되는지도 계산해 놓았고, 실제로 방법론적으로도 즐겨 쓰이고 있다. ±1σ의 경우 약 68%, ±2σ의 경우 약 95%, ±3σ의 경우 약 99.7%가 된다. 쓸 일이 많아서 심지어 위키피디아에도 실려 있다. 한편 공장에서 불량품 발생을 최소화하기 위해 흔히 외치는 6시그마 개념도 마찬가지로, 전체 생산에서 정상품이 나올 확률을 ±6σ 수준으로 관리하겠다는 목표다. 6시그마가 달성되는 공장에서 불량품이 나올 확률은 무려 1억 개 중에서 2개에 불과하다. [28] 경우에 따라서는 P(0≤Z≤a)를 기준으로 보여주는 테이블도 있다. 위의 접힌 테이블에서 모든 셀에 0.5를 감산하면 똑같아진다. 그런 표를 즐겨 쓰면 편하긴 한데, 갑자기 P(Z≤a) 테이블을 보게 되면 당황할 수 있다. [29] 위에서 인용된 표는 이해를 돕기 위해 애스터리스크를 만능 문자처럼 사용했지만, 그 위에 접혀져 있는 전체 표를 보면 그런 조치가 되어 있지 않아서 직관성은 다소 떨어짐을 볼 수 있다. 그러나 다소 불친절하더라도 원본 표에 익숙해질 필요는 있다.