최근 수정 시각 : 2024-09-02 10:39:20

최소제곱법



파일:나무위키+유도.png  
OLS은(는) 여기로 연결됩니다.
핀란드의 축구팀에 대한 내용은 오울룬 루이스틴세우라 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.
통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 상세3. 최소자승추정량
3.1. 가우스-마르코프 정리3.2. 통계적 특성3.3. 확률 분포
4. 최소자승추정량 공식 일람5. 편미분과 연립선형방정식을 사용한 최소자승법 계산 예6. GLS7. 관련 문서

1. 개요

, / ordinary least squares, OLS
한국어: 최소자승법, 최소이승법, 최소제곱법. 현재 최소제곱법으로 명칭이 통일되었다.

선형 모델의 파라미터를 추정하는 가장 기초적이면서 평범한(ordinary) 방법 중에 하나.

통계를 처음 배울 때 가장 먼저 접하게 되지만 단순하면서 가장 많이 쓰인다. 주의할 점은 OLS는 선형회귀모델의 추정 방법 중에 하나이지 선형회귀모델 자체는 아니라는 것.[1]

2. 상세

어떤 종속 변수 [math(Y)]가 어떤 독립변수 [math(X)]와 선형 관계에 있다고 가정한다면 [math(i)]번째 샘플의 관계는 다음과 같이 쓸 수 있다.

[math(Y_i=\beta_1+\beta_2X_i+\varepsilon_i)]

이는 모집단회귀선의 방정식이며, 여기에서 [math(\beta_1)]은 상수항, [math(\beta_2)]는 기울기, [math(\varepsilon_i)]는 오차항이다. 이 모집단회귀선을 추정하기 위한 표본회귀선의 방정식은 다음과 같다.

[math(Y_i=b_1+b_2X_i+e_i)]

여기에서 [math(\beta_1)]은 상수항, [math(\beta_2)]는 기울기, [math(\varepsilon_i)]는 잔차항으로, 위 모집단회귀식의 대응하는 추정량이다.

이때, 최소제곱법은 다음과 같이 이 표본회귀식의 잔차항의 제곱합을 최소화하는 방법론이다.

[math(\min\displaystyle\sum_{i=1}^ne_i^2=\min\sum_{i=1}^n(Y_i-b_1-b_2X_i)^2)]

각 잔차를 모두 제곱한 뒤 총합을 구하는 이유는, 잔차를 최소화하는 방법으로는 먼저 단순히 잔차의 총합 [math(\displaystyle e_i)]의 최솟값을 구하는 방법을 고려할 수 있다. 그러나 각 자료가 회귀선보다 위와 아래에 모두 존재하여 각 잔차가 양이 될 수도 있고 음이 될 수도 있어서 이 경우 잔차를 모두 더할 경우 상쇄되므로 적절하지 않다. 이와 같이 잔차끼리 상쇄되는 일을 방지하기 위하여 모든 값을 0 이상으로 만든 뒤 총합을 구하는 것인데, 분산을 구할 때 단순히 편차의 평균을 구하지 않고 편차의 제곱의 평균을 구하는 이유[2]와 정확히 같은 것이다. 이때, 모든 값을 0 이상으로 만드는 방법으로는 잔차항을 제곱합을 구하는 방법, 잔차항의 절댓값의 합을 구하는 방법, 잔차항과 회귀선의 수직거리의 합을 구하는 방법 등이 있는데, 최소자승법은 '자승()'이라는 이름에서 알 수 있듯이 잔차항의 제곱합을 최소화하는 방법인 것이다.

이렇게 최소자승법을 사용할 때 [math(b_1)], [math(b_2)]를 각각 [math(\beta_1)], [math(\beta_2)]의 최소자승추정량이라고 한다.

이를 선형대수학적으로 단순화시켜 설명하자면, [math(Y)]라는 실제 관측값 행렬[3]에 대하여, 독립변수를 모아놓은 행렬 [math(A)]가 존재하여 [math(Y=A\mathbf{x})]를 만족하는 다항식 벡터공간의 원소 [math(\mathbf{x})]가 존재할 때[4], 다음 정규방정식 [math(A^{T}A\mathbf{x}=A^{T}Y)]을 만족하는 벡터 [math(\mathbf{x})]의 해집합이 [math(A\mathbf{x}=Y)]의 최소제곱해가 된다는 것과 동치가 된다. 실제로는 오차항 행렬인 [math(E)]를 더한 [math(Y=A\mathbf{x}+E)]의 해집합 [math(\mathbf{x})]는 [math(E)]를 최소로 만드는 최소제곱해가 된다는 것이지만 둘 사이에 수학적인 의미로 큰 차이는 없다.

이 때, [math(A, \mathbf{x}, Y, E)]는 다음과 같이 세팅하면 되며, [math(E)]는 계산 결과로 역산해서 구하기 때문에 지시하지 않는 이상 구할 필요는 딱히 없다.

[math(\displaystyle A= \begin{pmatrix} 1 & x_1 & x_1^2 & \cdots & x_1^n \\ 1 & x_2 & x_2^2 & \cdots & x_2^n \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_m & x_m^2 & \cdots & x_m^n \end{pmatrix}, \mathbf{x}=\begin{pmatrix} a_0 \\ a_1 \\ \vdots \\ a_n \end{pmatrix}, Y= \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{pmatrix}, E=\begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_m \end{pmatrix})]

주의할 점은, [math(A^{T}A\mathbf{x}=A^{T}Y)]니까 양변의 좌측에 [math((A^TA)^{-1})]를 곱해서 소거시켜서 [math((A^TA)^{-1}A^{T}A\mathbf{x}=(A^TA)^{-1}A^{T}Y)]라고 계산하는건 맞는데, [math((A^TA)^{-1}=A^{-1}\left(A^T\right)^{-1})]이라고 생각해서 곱하여 [math(A^{-1}\cancel{\left(A^T\right)^{-1}}\cancel{A^{T}}Y=A^{-1}Y)]라고 계산하면 안 된다. 애당초 [math(A)]가 [math(n)]차 방정식에 대하여 [math(n+1)]개의 관측값이 주어진 경우가 아니라면 정사각행렬이 아니라 역행렬이 정의되지 않기 때문. 따라서 역행렬이 정의되는 최소 단위인 [math(A^{T}A)]에 대해서 역행렬을 구해야 한다.

이 때, [math(A^{T}A)]는 다음과 같은 행렬로 계산된다.

[math(A^{T}A=\displaystyle \sum_{1\leq i, j\leq n+1} \left(e_{ij}\sum_{k=1}^{m}x_{k}^{i+j-2}\right))]
([math(e_{ij})]는 [math(i)]행 [math(j)]열의 성분만 1이고 나머지는 0인 행렬)

3. 최소자승추정량

최소자승추정량의 구체적인 식을 알아보자. 잔차의 제곱합을 최소화하는 값을 구하기 위해, 먼저 위 문단에서 소개한 최소자승법의 식을 각 추정량에 대하여 편미분하여 1계 조건을 구해 보자.
[math(\begin{aligned}\dfrac{\partial\left(\displaystyle\sum_{i=1}^ne_i^2\right)}{\partial b_1}&=-2\sum_{i=1}^n(Y_i-b_1-b_2X_i)=-2\sum_{i=1}^ne_i=0\\\dfrac{\partial\left(\displaystyle\sum_{i=1}^ne_i^2\right)}{\partial b_2}&=-2\sum_{i=1}^n(Y_i-b_1-b_2X_i)X_i=-2\sum_{i=1}^ne_iX_i=0\end{aligned}\\\\\therefore\begin{cases}\displaystyle\sum_{i=1}^ne_i=0\\\displaystyle\sum_{i=1}^ne_iX_i=0\end{cases})]
이 두 식을 정규방정식(, normal equation)이라고 한다. 첫째 식은 잔차의 총합이 0임을 의미하고, 두 식을 동시에 충족할 때 잔차항과 독립변수 사이에 직교성(, perpendicularity)이 성립하며, 공분산은 0이 된다([math({\rm Cov}(e_i,\,X_i)=0)]). 이 때문에 직교방정식(, orthogonal equations)이라고도 한다.

이 조건을 이용하여 [math(b_1)]과 [math(b_2)]의 값을 구할 수 있다.
[math(\begin{aligned}\displaystyle\sum_{i=1}^ne_i&=\sum_{i=1}^n(Y_i-b_1-b_2X_i)=0\\&\rightarrow\sum_{i=1}^nY_i-nb_1-b_2\sum_{i=1}^nX_i=0\\&\rightarrow\bar Y-b_1-b_2\bar X=0\\\therefore b_1&=\bar Y-b_2\bar X\\\\\sum_{i=1}^nX_ie_i&=\sum_{i=1}^nX_i(Y_i-b_1-b_2X_i)\\&=\sum_{i=1}^nX_i\{(Y_i-\bar Y)+b_2\bar X-b_2X_i)\}=0\\\therefore b_2&=\dfrac{\displaystyle\sum_{i=1}^nX_i(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)X_i}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\&=\dfrac{\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2}=\dfrac{S_{xy}}{S_{xx}}\end{aligned})]
곧, 먼저 [math(b_1)]을 [math(b_2)]에 관한 식으로 나타낼 수 있음을 보인 뒤, [math(b_2)]를 구할 때 이 식을 대입하여 [math(b_2)]에 대하여 정리하여 추정량의 값 [math(S_{xy}/S_{xx})]를 도출한 것이다.

3.1. 가우스-마르코프 정리

보통 좋은 추정이라고 하면 통계에서는 불편성과 효율성을 만족시키는 추정량을 채택하는 것을 말한다. 특히 선형 모델의 경우 이렇게 가장 좋은 추정법을 BLUE(best linear unbiased estimator, 최량선형 불편추정량)라고 한다. 가우스-마르코프 정리란, 회귀계수 [math(\beta_1)], [math(\beta_2)]의 선형 불편추정량 중에서는 다음의 조건들을 만족시키는 한 최소자승추정량이 분산이 가장 작아서 그중에서도 가장 좋은 추정량이라는 정리이다. 곧, 최소자승추정량은 최소분산선형추정량(, minimum variance linear unbiased estimator(MVLUE)) 또는 최량선형불편추정량(, best linear unbiased estimator(BLUE))이라는 것이다. 둘은 결국 같은 말이다. 다음 조건은 OLS로 구한 파라미터 추정치가 BLUE가 되기 위해 필요한 조건인 셈이다.
회귀모형은 다음과 같이 회귀계수에 대하여 선형이어야 한다.

[math(Y_i=\beta_1+\beta_2X_i+\varepsilon_i)]

이는 독립변수와 종속변수의 관계를 규정하는 것으로, 주의할 점은 꼭 독립변수 [math(X_i)]에 대하여 선형(linear in variables)이어야 한다는 뜻이 아니라는 점이다. 대신, 회귀계수 [math(\beta_1)], [math(\beta_2)]에 대하여 선형(linear in parameters)이어야 한다는 뜻이다. 예를 들어

[math(\begin{aligned}Y_i&=\beta+\beta_2X_i^2+\varepsilon_i\quad&\cdots({\rm a})\\Y_i&=\beta+\sqrt{\beta_2}X_i+\varepsilon_i\quad&\cdots({\rm b})\end{aligned})]

에서 [math(({\rm b}))]는 [math(({\rm a}))]와 달리 독립변수에 대하여 선형일지언정 회귀계수에 대하여 비선형이다. 이 경우 두 모형 중에서 선형성을 만족시키는 것은 [math(({\rm a}))]라는 것이다. [math(({\rm a}))]의 경우 [math(X_i^2)]을 또 다른 변수 [math(Z_i)] 등으로 치환하면 처음에 소개한 기본형이 되므로 회귀분석에는 아무런 문제가 없다. 요컨대 '회귀계수에 대하여 선형'이라는 말은 각 회귀계수에 대한 1차 편미분이 해당 회귀계수가 포함된 함수가 아닌 일정한 상수가 된다는 뜻이다.
독립변수 [math(X)]는 비확률변수여야 한다. 독립변수의 비확률성이란, 다음과 같이 독립변수와 오차항의 공분산이 0이라는 뜻이다.

[math(\begin{aligned}{\rm Cov}(X_i,\,\varepsilon_i)&=E(X_i\varepsilon_i)-E(X_i)E(\varepsilon_i)\\&=E(X_i)\varepsilon_i-X_iE(\varepsilon_i)=0\end{aligned})]

쉽게 말하면 독립변수를 미리 주어진 것으로 본다는 뜻이기도 하다. 예를 들어, 독립변수를 먼저 고정해 놓고 그에 따라서 종속변수에 관한 자료를 수집하는 경우가 이에 해당한다. 그러나 실제 연구에서는 대부분 표본을 먼저 선정한 뒤 그 표본에 대한 독립변수 자료 및 종속변수 자료를 수집하는 경우가 많다. 다시 말하면 독립변수가 실제로는 확률변수인 경우가 많은데, 이 경우 [math({\rm Cov}(X_i,\,\varepsilon_i)\neq0)]이 되어 최소자승추정량은 불편추정량이 되지 못한다. 사회 자료는 비확률변수라는 조건도 너무 강하기 때문에 '독립변수는 확률변수이고 오차항에 대해 독립이다.'라는 완화된 조건을 사용하기도 한다. 예를 들어 2100년 가계소득을 독립변수로 한다고 했을 때, 이 독립변수는 2100년 가계소득 자료가 조사되고 취합되어 발표되기 전까지는 알 수가 없다. 즉 확률변수인 것이다.[5] 그러나 전체적인 분석에는 사실 큰 차이가 없어서(...) 설명의 단순화를 위해 독립변수의 비확률성을 전제하여 논의하는 것도 충분히 합리적이라고 할 수 있다.
전체 표본에서 독립변수에 대한 관측치는 적어도 서로 다른 두 개 이상의 값을 가져야 한다. 이 조건은 다음과 같이 표현할 수 있다.

[math(S_x^2=\displaystyle\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2\neq0)]

만약 모든 관측치의 독립변수의 값이 하나의 값 [math(c)]로 동일하면 [math(X_i=c)]이고 [math(X_i-\bar X=0)]이 되기 때문이다. 이 경우 산점도가 하나의 직선과 같이 나타나므로 표본회귀선의 기울기를 결정할 수조차 없게 되므로, 식별성의 조건은 표본회귀선의 기울기를 결정하기 위한 필수 조건인 셈이다.
  • 오차항의 평균은 0
모든 관측치에 대하여 오차항의 평균은 0이어야 한다. 곧, [math(i=1,\,2,\,\cdots,\,n)]에 대하여 다음이 성립해야 한다.

[math(\begin{aligned}E(\varepsilon_i)&=0\\\therefore E(Y_i)&=\beta_1+\beta_2X_i\end{aligned})]

이 가정은 종속변수의 체계적 변동이 독립변수에 대하여 모두 포착되어 오차항은 비체계적인 부분만을 설명한다는 뜻이다. 이는 여러 관측치가 회귀선보다 위에도, 아래에도 존재하여 양인 오차항과 음인 오차항이 혼재하므로 전체적으로는 상쇄되어 0이 됨을 나타낸다.
모든 관측치에 대하여 오차항은 일정한 분산을 가져야 한다. 곧, [math(i=1,\,2,\,\cdots,\,n)]에 대하여 다음이 성립해야 한다.

[math(V(\varepsilon_i)=E[\{\varepsilon_i-E(\varepsilon_i)\}^2]=E(\varepsilon_i^2)=\sigma^2)]

이는 각 독립변수 [math(X_i)]에 대하여 종속변수 [math(Y_i)]가 그 평균 [math(E(Y_i))]로부터 흩어진 정도가 일정하다는 뜻이다. 이 경우 오차항은 동분산(, homoscedasticity)을 갖는다고 하며, 그렇지 못할 경우 이분산(, heteroscedasticity)을 갖는다고 한다.
서로 다른 관측치의 오차항 사이에는 아무런 상관관계도 성립하지 않는다는 가정이다. 곧, 다음이 성립해야 한다.

[math(\begin{aligned}{\rm Cov}(\varepsilon_i,\,\varepsilon_j)&=E[\{\varepsilon_i-E(\varepsilon_i)\}\{\varepsilon_j-E(\varepsilon_j)\}]\\&=E[\varepsilon_i\varepsilon_j]=0\quad(i\neq j)\end{aligned})]

이 가정은 오차항이 모종의 체계적인 패턴에 의거하여 변화하는 것이 아니라는 뜻이며, 곧 한 오차항은 다른 오차항에 아무 영향을 미치지 않음을 나타낸다. 이 가정이 성립하지 않는 경우를 자기상관(, autocorrelation)이 존재한다고 하며, 대부분의 시계열자료에서는 연속된 기간 안에서 자기상관이 발생하곤 한다.

첫째부터 넷째까지의 가정을 만족시키면 최소자승추정량은 불편추정량이 된다. 또한 이 여섯 개의 가정을 모두 만족시키는 모형을 고전적 회귀모형( , classical regression model)이라고 하며, 이때 비로소 OLS는 BLUE가 된다.

3.2. 통계적 특성

표본회귀선의 방정식

[math(Y_i=b_1+b_2X_1+e_i)]

의 최소자승추정량 [math(b_1)], [math(b_2)]에 대하여 다음의 성질이 성립한다.
  • 선형추정량
최소자승추정량 [math(b_1)], [math(b_2)]는 종속변수 [math(Y_i)]의 선형결합으로 나타낼 수 있는 선형추정량이다. 먼저, [math(b_2)]가 최소자승추정량일 때

[math(b_2=\dfrac{S_{xy}}{S_{xx}})]

임을 위에서 알아보았다. 이 식을 조작하면

[math(\dfrac{S_{xy}}{S_{xx}}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)(Y_i-\bar Y)}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}=\dfrac{\displaystyle\sum_{i=1}^n(X_i-\bar X)Y_i}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]

이고, 여기에서 다음과 같이 [math(w_i)]를 각 관측치에 대한 가중치로 표기하자.

[math(w_i=\dfrac{X_i-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]

그러면 [math(b_2)]를 다음과 같이 쓸 수 있다.

[math(b_2=\displaystyle\sum_{i=1}^nw_iy_i)]

이는 [math(w_i)]를 가중치로 하는 [math(Y_i)]의 선형결합이다. 마찬가지로 [math(b_1)]은 다음과 같이 쓸 수 있다.

[math(\begin{aligned}b_1&=\bar Y-b_2\bar X\\&=\displaystyle\sum_{i=1}^n\left(\dfrac1n-w_i\bar X\right)Y_i=\displaystyle\sum_{i=1}^nv_iY_i\end{aligned})]

이는 [math(v_i)]를 가중치로 하는 [math(Y_i)]의 선형결합이다. 따라서 최소자승추정량 [math(b_1)], [math(b_2)]는 모두 선형추정량이다.
  • 불편성
위 가우스-마르코프 조건에서 첫째부터 넷째까지의 조건이 성립하면 최소자승추정량은 불편추정량이라고 했다. 곧, 다음을 만족시킨다.

[math(E(b_1)=\beta_1,\;E(b_2)=\beta_2)]

  • 분산과 공분산
위 가우스-마르코프 조건을 모두 만족시키면 최소자승추정량은 다음의 분산과 공분산을 갖는다.

[math(\begin{aligned}V(b_1)&=\sigma_{b_1}^2=\sigma^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]\\&=\sigma^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\V(b_2)&=\sigma_{b_2}^2=\dfrac{\sigma^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\{\rm Cov}(b_1,\,b_2)&=\sigma_{b_1b_2}=\sigma^2\cdot\dfrac{-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\end{aligned})]

3.3. 확률 분포

최소자승추정량은 정규 분포를 따른다는 가정을 도입하면, 최소자승추정량의 정확한 분포를 도출하여 가설검정을 잘 진행할 수 있다. 곧, 다음과 같이 오차항의 정규성을 가정하는 것이다.

[math(\varepsilon_i\sim N(0,\,\sigma^2))]

그러나 실제 자료에서 이 가정이 성립하지 않더라도 중심극한정리에 의거하여 가설검정을 진행할 수 있다.

한편, 위 가우스-마르코프 조건이 충족되면, 최소자승추정량 [math(b_2)]는 평균이 [math(\beta_2)]이고 분산이 [math(\sigma^2)]인 확률변수가 된다. 여기에 오차항의 정규성까지 가정하면 [math(b_1)] 역시 비슷한 평균과 분산을 갖는다. 곧 다음이 성립한다.

[math(b_1\sim N(\beta_1,\,\sigma_{b_1}^2),\,b_2\sim N(\beta_2,\,\sigma_{b_2}^2))]

[math(\therefore\dfrac{b_1-\beta_1}{\sigma_{b_1}}\sim N(0,\,1),\,\dfrac{b_2-\beta_2}{\sigma_{b_2}}\sim N(0,\,1))]

그런데 오차항의 분산 [math(\sigma^2)]의 값은 일반적으로 정확히 알려져 있지 않기 때문에, [math(\sigma_{b_2}^2)]의 값을 구할 수 없다. 따라서 표본으로 도출한 잔차항 [math(e_i)]를 사용할 수밖에 없다. 곧, 표본만을 가지고 표본회귀선

[math(e_i=Y_i-(b_1+b_2X_i))]

를 통해 회귀계수 [math(b_1)], [math(b_2)]를 추정하면 [math(e_i)]를 구할 수 있다. 이와 같이, 정확히 알 수 없는 오차항 [math(\varepsilon_i)]의 분산 [math(\sigma^2)]을 추정하는 잔차항 [math(e_i)]의 분산 [math(s^2)]을 도출하면 다음과 같다.

[math(s^2=\displaystyle\frac1{n-2}\sum_{i=1}^ne_i^2)]

여기에서 잔차의 제곱합을 표본의 개수인 [math(n)]이 아닌 [math((n-2))]로 나누는 이유는, [math(n)]개의 표본자료에서 2개의 회귀계수 [math(b_1)]과 [math(b_2)]를 추정할 때 감소하는 자유도를 반영해야 하기 때문이다. 요컨대, [math(n)]이 아닌 [math((n-2))]로 나눠야

[math(E(s^2)=\sigma^2)]

이 성립하여 [math(s^2)]이 불편추정량이 된다.

이때, 이 [math(s^2)]은 독립변수가 설명하지 못하는 잔차의 변동을 반영하므로, 모형의 설명력을 측정하는 척도가 되기도 한다. 그래서 [math(\sqrt{s^2}=s)]를 계산하여 회귀식의 표준오차(standard error of regression)라는 이름으로 사용한다.

위에서 최소자승추정량의 분산을 구했듯이, 이 분산에 대한 추정량 역시 다음과 같이 도출할 수 있다.

[math(\begin{aligned}\widehat{V(b_1)}&=s_{b_1}^2=s^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]\\&=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\\\widehat{V(b_2)}&=s_{b_2}^2=\dfrac{s^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\end{aligned})]

이때, 앞서 [math(E(s^2)=\sigma^2)]이고 독립변수의 비확률성 가정 때문에 이 두 추정량 역시 불편추정량이며, 여기에 제곱근을 취하면 다음과 같이 회귀계수의 표준오차(standard error of regression coefficient)가 된다.

[math(\begin{aligned}\sqrt{\widehat{V(b_1)}}=s_{b_1}&=s\sqrt{\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\\&=s\sqrt{\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\\\sqrt{\widehat{V(b_2)}}=s_{b_2}&=\dfrac{s}{\sqrt{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}}\end{aligned})]

4. 최소자승추정량 공식 일람

[math(b_1)], [math(b_2)]가 회귀선 [math(Y_i=b_1+b_2X_i+e_i)]의 최소자승추정량일 때 다음이 성립한다.
  • [math(b_1=\bar Y-b_2\bar X,\,b_2=\dfrac{S_{xy}}{S_{xx}})]
  • [math(E(b_1)=\beta_1,\,E(b_2)=\beta_2)]: 불편추정량
  • [math(V(b_1)=\sigma_{b_1}^2=s^2\left[\dfrac1n+\dfrac{\bar X^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2}\right]=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]
  • [math(V(b_2)=\sigma_{b_2}^2=\dfrac{\sigma^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]
  • [math(\widehat{V(b_1)}=s_{b_1}^2=s^2\cdot\dfrac{\displaystyle\sum_{i=1}^nX_i^2}{n\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]
  • [math(\widehat{V(b_2)}=s_{b_2}^2=\dfrac{s^2}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]
  • [math({\rm Cov}(b_1,\,b_2)=\sigma_{b_1b_2}=\sigma^2\cdot\dfrac{-\bar X}{\displaystyle\sum_{i=1}^n(X_i-\bar X)^2})]

5. 편미분과 연립선형방정식을 사용한 최소자승법 계산 예

파일:ordinary_least_squares_OLS.svg
점들 (0,0),(4,2),(7,5),(10,6)에 대한 분산에서 이들의 최단경로를 최소제곱식으로 구현할수있다.
[math( D(a,b) = \sum_{i=1}^{n}\left( y_i - (ax_i+b) \right)^2 )]
[math( = (0-(0a+b))^2 +(2-(4a+b))^2 +(5-(7a+b))^2 +(6-(10a+b))^2 )]이고
[math( 0a+b = A , 4a+b= B , 7a+b =C , 10a+b =D )]로 놓으면
[math( =(0-A)^2+(2-B)^2 +(5-C)^2+ (6-D)^2) )]
[math( =(0-0A+A^2)+(4-4B+B^2) +(25-10C+C^2) +(36-12D+D^2) )]
[math( = 0-0+A^2 +4-4B+B^2 +25-10C+C^2 + 36 -12D+D^2 )]
[math( = 0+4+25+36 -0A+A^2 -4B+B^2 -10C+C^2 -12D+D^2)]
한편 [math( A^2 = 0^2+0ab+b^2 , B^2 = 16a^2+8ab+b^2 , C^2 =49a^2+14ab+b^2 , D^2 =100a^2+20ab+b^2 )]
[math( = 65 -0(a+b)+(0^2+0ab+b^2) -4(4a+b)+(16a^2+8ab+b^2) -10(7a+b)+(49a^2+14ab+b^2) -12(10a+b)+(100a^2+20ab+b^2) )]
[math( = 65 +b^2 -16a-4b+16a^2+8ab+b^2 -70a-10b +49a^2+14ab+b^2 -120a-12b+100a^2+20ab+b^2 )]
[math( = 65 -206a -26b +42ab +165a^2 +4b^2 )]

[math( D_a = \dfrac{\partial D}{\partial a} = 330a+42b-206 = 0 )]
[math( D_b = \dfrac{\partial D}{\partial b} = 8b +42a -26 = 0 )]
[math( a = \dfrac{139}{219} , b=- \dfrac{6}{73} )]
따라서 점들 (0,0),(4,2),(7,5),(10,6)에 대한 분산에서 이들의 편차를 최소로하는 직선식의 구현을
[math( y = \dfrac{139}{219}x - \dfrac{6}{73} )]로 계산해 볼수있다. [6]

6. GLS

오차항에 이분산성이나 자기상관성이 있는 경우에 대해서는 OLS(통상최소제곱)가 아니라 GLS(generalized least squares, 일반화 최소제곱)를 사용할 수 있다. 오차항의 이분산 구조나 자기상관 구조를 활용 안다면 이를 상쇄할 수 있는 함수를 사용하는 최소제곱방법이다. OLS에서는 오차항의 크기 만큼 가중치가 주어지는데, GLS에서는 오차항의 이분산성이나 자기상관성을 상쇄할 수 있도록 보정된 가중치를 부여하여 최소제곱 추정을 한다고 생각하면 편하다.

그런데 선형확률모형 같은 특별한 케이스가 아닌 이상에야 오차항의 함수 구조를 안다는 조건 자체가 비현실적이다. 따라서 요즘에는 GLS를 잘 사용하지 않고 이분산성이나 자기상관성에 대해서도 강건한(robust) 표준오차 추정량을 사용하는 경우가 일반적이다. 다만 잔차의 그래프나 플롯을 그렸을 때 주어진 자료의 이분산성이나 자기상관성이 너무 강할 때에는 GLS와 robust 추정을 함께 쓰기도 한다. 애매하면 robust를 쓰자

7. 관련 문서


[1] 선형회귀모델의 파라미터를 추정하는 방법에는 OLS 말고도 WLS(weighted least squares), GLS(generalized least squares), LASSO, Ridge 등 다양하다. [2] 곧, 편차의 합은 항상 모든 값이 최종적으로 상쇄되어 0이 되기 때문 [3] 정확하게는 관측값을 [math(i)]번째 측정에 대하여 [math((x_i, y_i))]로 정의하고, [math(x_i)]를 독립변수, [math(y_i)]를 관측값으로 둔다. [4] 즉 [math(\mathbf{x}:y=a_0+a_1x+a_2x^2+\cdots+a_nx^n)]라는 구하고 싶은 근사 다항방정식을 의미한다. [5] 사회 자료는 이 조건마저도 강하게 어기는 경우가 많기 때문에 더 완화된 조건인 '조건부 0' 가정을 사용하는 경우가 더 일반적이다. 즉 독립변수 행렬 [math(\mathbf{X})]와 오차항 벡터 [math(\mathbf{\epsilon})]에 대해 [math(\mathbb{E}[\mathbf{\epsilon}|\mathbf{X}])] 가정을 사용한다. 때로는 이 가정도 깨져서 각각의 독립변수와 오차항의 상관계수가 0이라는 조건을 사용해야 하는 경우도 있다. 즉 [math(\rm{Cov}(\epsilon_i, X_i) = 0)]을 사용한다. 전자를 만족시키지 못하고 후자만 만족시킨다면 OLS는 BLUE가 되지 못하며 편의가 생긴다. 다만 이 후자의 가정을 만족시키면 일치추정량이 될 수는 있다. 곧, 편의가 있지만 대표본하에서는 추정량이 참값으로 확률수렴한다. [6] \[Matrix calculator\]연립 선형 방정식 풀기 https://matrixcalc.org/ko/slu.html