결정계수

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량		평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 · 자료 시각화		도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 상세3. 용도4. 중요도?5. 관련 문서

1. 개요

決定係數 / coefficient of determination

최소제곱법을 활용한 선형회귀분석에서 종속변수의 분산 중에서 독립변수로 설명되는 비율을 의미한다. 쉽게 말해, 이 통계 모델로 대상을 얼마나 잘 설명할 수 있는가를 숫자로 나타낸 것이 결정계수이다. 세글자로 "설명력"이라고 줄여 쓴다.

사회과학이나 데이터분석에서 내가 만든 선형모형을 최소제곱추정했을 때, 해당 모형이 타겟 변수를 얼마나 잘 예측 혹은 설명하는지 평가하는 지표 중 하나로 자주 사용된다.

2. 상세

선형회귀분석에서 종속변수의 분산은 다음과 같이 평균과의 차이를 제곱한 것의 합(이하 Sum of Squared Total, SST)으로 추정할 수 있다.[1]

[math(\displaystyle \text{SST} = \sum_{i=1}^n (y_i - \bar{y})^2)]

그리고 만약 모델로 추정한 값이 [math(\hat{y}_i)]라고 한다면, 잔차(residual)의 제곱합(이하 Sum of Squared Residual, SSR)는 다음과 같다.

[math(\displaystyle \text{SSR} = \sum_{i=1}^n (y_i - \hat{y}_i)^2)]

이들을 이용해 결정계수([math(R^2)])을 다음과 같이 정의한다.
~~[math(\displaystyle R^2= \frac{\text{SSR}}{\text{SST}}.)]~~

~~[math(\displaystyle R^2= 1-\frac{\text{SSE}}{\text{SST}}.)]~~
여기서 만약 우리가 만든 모델이 샘플 평균 [math(\bar{y})]로 모조리 예측한 것보다 안 좋으면 결정계수는 마이너스가 나올 수 있다.[2]

참고로, 최소자승법을 이용한 선형회귀분석에서 종속변수의 예측값(fitted value) [math(\hat{y}_i)]와 실제값(actual value) [math(y_i)]의 피어슨 상관계수를 제곱한 값이 결정계수와 같아진다. 증명

선형회귀분석이 연구되던 초창기에는 모델의 적합도를 측정하기 위한 측도(measure)로 종속변수 예측값과 실제값의 상관계수를 사용했다. 그러던 중 비음(nonnegative) 측도를 만들기 위해 상관계수의 제곱을 사용했는데, 이 값의 특성을 연구해보니 종속변수의 전체 변동에서 회귀모형이 설명할 수 있는 비율을 나타내는 것이라는 결과가 나왔기 때문에 이 값을 모델 설명력의 측도로 많이 사용한다. 좀 더 구체적으로 설명하면 선형회귀모형에서 예측값(fitted value)과 실제값(actual value)의 상관계수를 구하고 이를 제곱하면 (SSR*SST)/SST² 이 나오고 분자 분모의 SST를 약분하면 흔히 보는 R²가 나온다. 증명

R²의 변종으로 조정된 R²(adjusted R²), 예측 R²(predicted R²)등이 있다.

후술되듯이 R²는 여러 검정통계량에 응용된다. 하지만 변형된 R²들은 특정한 목적에 맞게 임시변통적으로 만들어진 지표들이기 때문에 검정통계량에 사용되는 경우는 극히 드물다. R²가 포함된 검정통계량은 표본이 충분히 많은 경우를 가정하고 유도하는 경우가 많기 때문에 꼼꼼하게 따지지 않는 한 큰 차이를 느끼기는 힘들다.

3. 용도

종속변수에 대한 모델 설명력을 나타내는 측도로 사용된다. 조정된 R², AIC(Akaike information criterion), BIC(Bayes information criterion) 등과 함께 모델선택에서의 대표적인 기준 측도이다.

라그랑지 승수 검정(LM test)의 검정통계량이 대부분 관측치 수(표본의 수)*결정계수, 즉 nR²다. 대표적인 검정으로 이분산 검정에서의 Breusch–Pagan test, 자기상관에서의 Breusch–Godfrey test가 있다. R² 자체가 이론통계학적으로 좋은 성질을 많이 갖고 있기 때문에 이 외에도 각종 test에서 많이 사용된다.

4. 중요도?

통계를 처음 배울때, 높은 결정계수가 좋다고 배운다. 하지만, 일반적으로 알려진 사실과는 달리 R²가 크다고 무조건 좋은 것도 아니고 작다고 나쁜 것도 아니다. 예를들어, R²가 아무리 높아도 시계열모형에서의 허구적 회귀와 같은 경우라면 아무 의미가 없다. 그렇다고 R² 가 아무리 작아도 선형모형에서 고전적 가정들(등분산, 자기상관성 없음, 내생성 없음 등)이 성립하면 변수간 관계를 추정하는데에는 전혀 문제가 없다. 사회과학 모형은 결정계수가 낮을 가능성이 큰데, 모형을 잘 설정하고 적절한 추정방법을 사용했다면 R²가 작더라도 의미 있는 결론을 도출 할수 있다.

R² 의 문제점은 너무 많은 것에 영향을 받으며, 대표적으로 종속 변수의 분산과 잔차의 분산에 크게 의존하게 된다. 또한, R² 이 모델 적합도를 나타내는 척도라 정의되어 있지만, 단순히 R² 값 만으로는 "모델 선형성" 이나 "종속변수와 독립 변수간의 관계" 또는 "모델적합도"에 대해여 별로 도움이 되지 않는다는거다.

해당 문제점을 잘 보여주는 예제인 앤스컴 콰르텟의 나오는 4가지 데이터셋의 결정계수는 전부 동일하나, 시각화 했을 경우, 매우 다른 결과가 나온다. 사실 해당 예제는 시각화가 중요하다 라는걸 알리는 예제이지만, 0.67 이라는 결정계수값 만으로는 단순히 모델이 적합한지 판단 할수 없다 라는 점을 시사한다. 따라서, 선형 모델을 비교할때는, 단순히 결정 계수값만 볼게아니라 시각화를 통해 해당 모델이 적합한지 확인해야 한다.

선형모형의 목적이 종속변수의 예측에 있는 것이라면, 간단하게 R² 를 무시하면 된다. R² 는 선형모델의 예측력을 잘 설명하지 못하기 때문에 다른 성능 평가 지표들이 쓰인다. 대표적으로, 연속형 종속 변수의 경우, 평균 제곱 오차가 쓰이며 범주형 종속 변수의 경우, 혼동 행렬이 쓰인다.

반면 목적이 변수간 관계 추정에 있다면 R² 보다는 adjusted R² (수정된 결정계수) 가 더 중요하다. R² 는 독립변수의 개수를 추가 할 경우, 변하지 않거나 증가하나 절대로 감소하지는 않는다. 따라서, 독립변수가 1개인 모델과 독립변수가 10개인 모델을 비교했을때, 독립변수가 더 많은 모델의 결정계수가 더 클 수밖에없다. 해당 문제를 해결 하기위해, adjusted R² (수정된 결정계수) 쓰인다. 수정된 결정계수는 표본의 크기와 독립변수의 수를 고려하여 계산이 된다. 따라서, 종속변수의 변동을 별로 설명해 주지 못하는 변수가 모형에 추가 될 경우, 수정된 결정계수는 감소하게 되고 종속변수의 변동을 잘 설명해 주는 변수가 모형에 추가 될 경우, 수정된 결정계수는 증가하게 된다. 단, 독립 변수의 개수가 1개인 단순 회귀의 경우, 결정계수값이 수정된 결정계수값과 동일하다.

5. 관련 문서

[1] 어차피 비율만 구할 것이기 때문에 샘플 갯수로 굳이 나눠줄 필요는 없다. [2] 하지만 in sample 선형회귀를 돌린 경우 0보다 작을 수 없다.