통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
절대편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절댓값을 취하고 그 값들의 대푯값을 구한 것이다.즉, 각 데이터에서 평균을 빼고 제곱한 후 제곱근을 씌운 표준 편차와는 다르게, 제곱을 하지 않고 절댓값을 씌운 것이다.
평균 절대 편차(average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절댓값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 절댓값 편차의 평균이라고 생각하면 된다.
중앙값 절대 편차(median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절댓값을 취한 값들의 중앙값을 구한다.
최소 절대 편차(least absolute deviation, LAD)는 회귀 분석(regression analysis)에 사용된다.
2. 평균 절대 편차
평균 절대 편차(average absolute deviation, AAD 또는 mean absolute deviation, MAD)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 개수로 나눠준 것이다. 편차의 절댓값의 평균이라고 생각하면 된다.자료값들이 대푯값으로부터 어느정도 떨어져 있는지를 나타내는 수치 중의 하나.
줄여서 평균 편차라고 부르는 경우가 많다.
2.1. 산식
[math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )]2.2. 표준 편차와 평균 편차의 용도차이
중, 고교 수학시간에 표준 편차에 대해서 배우지만 평균 편차에 대해서는 배우지 않는다.이 때 수학적 센스가 있는 학생이라면 '왜 편차를 구할 때,[math( \frac{{|x_1 -m|} + {|x_2 -m|} + \cdot \cdot \cdot + {|x_n -m|} }{n} )] 으로 구하지 않고, 굳이 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] 처럼 번거로운 식을 사용할까?'라는 의문을 가져본 경우가 있을 것이다. 사실 이러한 의문에 대해서 중고교에서 제대로 된 설명을 해주는 경우는 드물다. 이하에서는 이에 대한 설명을 하고자 한다.
우선 편차의 뜻을 알아야 한다. 편차란 자료값들이 특정값[1]으로부터 떨어진 정도를 나타내는 수치이다. 이를 구하는 방법에는 대표적으로 두가지가 있다. 각각의 자료값에서 특정값을 뺀 값의 절대값을 모두 더한 뒤 이의 평균을 구하는 방법[2]과, 각각의 자료값에서 특정값을 뺀 값의 제곱을 모두 더한 뒤 이의 평균을 구하는 방법[3]이다. 전자의 방법은 [math( \frac{{|x_1 -X|} + {|x_2 -X|} + \cdot \cdot \cdot + {|x_n -X|} }{n} )] 으로 나타낼 수 있고, 후자의 방법은[math( \sqrt{ \frac{{(x_1 -X)}^{2} + {(x_2 -X)}^{2} + \cdot \cdot \cdot + {(x_n -X)}^{2} }{n} } )] 로 나타낼 수 있다. 여기서 X는 특정값을 의미한다.
편차의 뜻을 알았다면 이젠 대푯값의 개념을 이해해야 한다. 대푯값은 편차를 최소로 만드는 값을 말한다. 한편 편차를 전자의 방식으로 구한다면, 대푯값은 중앙값이 된다. 반면 편차를 후자의 방식으로 구한다면, 이 때의 대푯값은 평균(m), 즉 [math( \frac{x_1 + x_2 + \cdot \cdot \cdot + x_n } {n} )]이 된다. (증명은 생략)
마지막으로 산포도의 개념을 이해해야 한다. 산포도란 자료값들이 대푯값으로부터 떨어진 정도를 말한다. 즉 편차의 정의인 '자료값들이 특정값으로부터 떨어진 정도'에서 특정값 대신 대푯값을 넣으면 그것이 산포도이다. 따라서 편차를 전자의 방식으로 구하고자 한다면, 그 때의 대푯값은 중앙값(c)이 되고, 이 때의 산포도는 [math( \frac{{|x_1 -c|} + {|x_2 -c|} + \cdot \cdot \cdot + {|x_n -c|} }{n} )] 이 된다. 이것이 바로 평균편차이다. 반면 편차를 후자의 방식으로 구하고자 한다면, 그 때의 대푯값은 평균(m)이 되고, 이 때의 산포도는 [math( \sqrt{ \frac{{(x_1 -m)}^{2} + {(x_2 -m)}^{2} + \cdot \cdot \cdot + {(x_n -m)}^{2} }{n} } )] 이 된다. 이것이 바로 표준편차이다. 또 하나의 대푯값인 최빈값은 이산거리(같으면 0 다르면 1)가 산포도가 된다.
내용을 요약하자면 평균편차는 자료값들이 중앙값으로부터 떨어진 정도를 알아볼 때 이용하는 것이고, 표준편차는 자료값들이 평균으로부터 떨어진 정도를 알아볼 때 이용하는 것이다. 중고교 수학 시간에 복잡하게 표준편차를 계산한 것 역시 평균에서 떨어진 정도를 구하기 위함이고, 중앙값에서 떨어진 정도는 구하지 않았기 때문이다.
2.3. 다른 의견
평균편차 대신에 표준편차를 사용하는 이유3. 중앙값 절대 편차
중앙값 절대 편차(median absolute deviation, MAD)는 관측값에서 중앙값을 빼고, 그 차이에 절대값을 취한 값들의 중앙값을 구한다.4. 최소 절대 편차
최소 절대 편차(least absolute deviation, LAD)는 회귀 분석(regression analysis)에 사용된다.이름만 들으면 어려워보이지만 분위회귀분석의 특이한 경우다. 가설검정에 사용되는 통계량들이 점근적 성질을 갖고 있으므로 관측치가 충분히 많은 경우에만 사용해야한다.