최근 수정 시각 : 2024-12-26 16:28:38

추정량

평균제곱오차에서 넘어옴

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}


1. 개요2. 설명
2.1. 불편추정량·편의추정량·편의2.2. 유효추정량·평균제곱오차
2.2.1. 상대효율
2.3. 일치추정량2.4. 충분추정량·충분성
3. 우선순위
3.1. 예시

1. 개요

/ estimator

통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일을 추정(, estimation)이라 한다. 이 문서에서는 통계학의 추정 이론 중에서도 좋은 추정량이 가져야 하는 조건들을 소개한다.

2. 설명

모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량, 실제의 관찰값을 넣어 계산한 값을 추정치(, estimate)라고 한다. 예를 들면 다음과 같다.
  • 모수 [math(\mu)]의 추정량은 [math(\bar X=\dfrac{\sum X_i}n)]
  • 모수 [math(\sigma^2)]의 추정량은 [math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1})]
  • 모수 [math(p)]의 추정량은 [math(\hat p=\dfrac{X}n)]

이때 구체적인 수치로 계산되어 나올 수 있는 [math(\bar X=10)], [math(s^2=4)], [math(\hat p=0.2)] 등은 추정치가 되는 것이다.

일반적으로 모수를 그리스 문자 [math(theta)]로, 추정량을 [math(\hat\theta)]으로, [math(E(\hat\theta)=\bar{\hat\theta})]로 표기한다. [math(\hat\theta)]는 '세타 햇(theta hat)', [math(\bar{\hat\theta})]는 '세타 햇 바(theta hat bar)'로 읽는다.

2.1. 불편추정량·편의추정량·편의

분포의 평균값이 추정하려는 모수와 일치하는 추정량을 불편추정량(, unbiased estimator), 그렇지 않은 추정량을 편의추정량(, biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.
  • [math(E(\hat\theta)=\theta)]이면 불편추정량
  • [math(E(\hat\theta)\neq\theta)]이면 편의추정량

여기에서 [math(E(\hat\theta)-\theta)]를 편의(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.
  • [math(\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu)]
  • [math(\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2)]

이를 두고 '[math(\bar X)]는 [math(\mu)]의 불편추정량', '[math(s^2)]은 [math(\sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본 분포 참고.

2.2. 유효추정량·평균제곱오차

모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 유효추정량(, relatively efficient estimator)을 최소분산불편추정량(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.

[math(\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] )]

이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(\hat\theta)]의 MSE는 [math(\rm{MSE}(\hat\theta))]으로 표기한다.

MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.
[math(\begin{aligned}E[(\hat\theta-\theta)^2]&=E[\{(\hat\theta-\bar{\hat\theta})+(\bar{\hat\theta}-\theta)\}^2]\\&=E[(\hat\theta-\bar{\hat\theta})^2]+E[(\bar{\hat\theta}-\theta)^2]+2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]\end{aligned})]
여기에서 [math(\bar{\hat\theta})]와 [math(\theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로

[math(E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2)]

또한, [math(\hat\theta-\bar{\hat\theta})]는 [math(\hat\theta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.

[math(2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 )]

따라서 [math({\rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({\rm MSE})]는 편의의 제곱과 [math(\hat\theta)]의 분산의 합이다.

[math(\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\hat\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned})]

불편추정량은 편의가 0이므로, 불편추정량의 [math({\rm MSE})]는 [math(\hat\theta)]의 분산과 같다. 결국 이 [math({\rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.

2.2.1. 상대효율

모수 [math(\theta)]에 대한 두 추정량을 [math(\hat\theta_1)], [math(\hat\theta_2)]라 할 때, 두 [math({\rm MSE})]의 비율

[math(\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)})]

을 [math(\hat\theta_1)]에 대한 [math(\hat\theta_2)]의 상대효율(, relative efficiency)이라고 하며 약어로 [math(\rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.
  • [math(\rm RE>1)]이면 [math(\hat\theta_2)]가 더 좋은 추정량
  • [math(\rm RE<1)]이면 [math(\hat\theta_1)]이 더 좋은 추정량

결국 이는 위에서 살펴본 두 [math({\rm MSE})]의 대소 판별과 다를 것이 없다.

2.3. 일치추정량

표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(\hat\theta)]은 [math(\theta)]의 일치추정량(, consistent estimator)이라고 한다.

[math(\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0)]

[math(\theta=\mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(\bar X)]가 모평균 [math(\mu)]에 확률적으로 수렴해 갈 때 [math(\bar X)]는 [math(\mu)]의 일치추정량이라고 한다.

또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
  • [math(\hat\theta)]가 불편추정량
  • [math(\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0)]

불편추정량은 편의가 0이므로, [math(\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.
  • [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)][2]

따라서, [math(\bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({\rm Var}(\bar X)={\sigma^2}/n)]이고 [math({\rm Var}(s^2)={2\sigma^4}/({n-1}))]이므로 [math(n\to\infty)]이면 극한값은 [math(0)]이 되어 [math(\boldsymbol{\bar X})] [math(\boldsymbol{s^2})]은 일치추정량이다.

2.4. 충분추정량·충분성

표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 충분성(, sufficiency)이 있다고 하며, 이 추정량을 충분추정량(, sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.
각 [math(\hat\Theta)]의 값에 대하여 [math(\hat\Theta=\hat\theta)]이 주어질 때 확률표본 [math(X_1,\,X_2,\,\cdots,\,X_n)]의 조건부확률분포 또는 밀도가 [math(\theta)]에 대하여 독립이면, 통계량 [math(\hat\Theta)]을 모수 [math(\theta)]의 충분추정량이라고 한다.

3. 우선순위

두 추정량 [math(\hat\theta_1)]과 [math(\hat\theta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.

[math(\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_2)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases})]

이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({\rm MSE}[\hat\theta_1])]와 [math({\rm MSE}[\hat\theta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.

3.1. 예시

[math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 평균이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(\sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 (표본의 개수)-1로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 다음과 같이 두 추정량을 약속하여 비교해 보자.
[math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1},\;{\hat\sigma}^2=\dfrac{\sum(X_i-\bar X)^2}n )][비교]
먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(\sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({\hat\sigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({\hat\sigma}^2)]보다 더 적절한 추정량이다.

이번에는 유효추정량의 관점에서 [math(\rm MSE)]의 대소를 판별해 보자.
[math(\begin{aligned}{\rm MSE}[{\hat\sigma}^2]&={\rm Var}({\hat\sigma}^2)+[E({\hat\sigma}^2)-\sigma^2]^2\\&=\left(\dfrac{n-1}n\right)^{\!2}\dfrac{2\sigma^4}{n-1}+\left(\dfrac{n-1}n\sigma^2-\sigma^2\right)^{\!2}\\&=\dfrac{2n-1}{n^2}\sigma^4\\{\rm MSE}[s^2]&={\rm Var}(s^2)+\textsf{(bias)}^2\\&=\dfrac{2\sigma^4}{n-1}\;(\because\textsf{(bias)}=0)\\ \\\rightarrow{\rm MSE}[s^2]-{\rm MSE}[{\hat\sigma}^2]&=\dfrac{2\sigma^4}{n-1}-\dfrac{2n-1}{n^2}\sigma^4\\&=\dfrac{3n-1}{n^2(n-1)}\sigma^4\geq 0 \\ \\ \therefore{\rm MSE}[s^2]&\geq{\rm MSE}[{\hat\sigma}^2] \end{aligned})]
[math(n>1)]일 경우에 [math(3n-1,\;n^2,\;n-1>0)], [math(\sigma^4\geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({\hat\sigma}^2)]이 [math(s^2)]보다 [math({\rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(\rm MSE)]가 같은 경우는 [math(\sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2])]로 보아도 좋다.

이렇게 [math(s^2)]과 [math({\hat\sigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.
[1] 흔히 쓰는 '불편(不便)', '편의(便宜)'와 발음이 같아서 혼동하기 쉬운데, '편'은 便(편할 편)이 아니라 (치우칠 편)이다. [2] [math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다. [비교] [math({\hat\sigma}^2=\dfrac{n-1}ns^2)]