[통계] 평균과 표준편차

Study/칼만필터

고냥정권 2022. 1. 15. 22:05

아주 대단한 강의네요.

사실 UKF를 공부하다가 분산개념이 헷갈려서 통계쪽을 살펴보고있었습니다.

\(평균(Mean) = \frac{자료전체의 합(sum)} {자료의 개수(n)}\)

데이터가 1,2,3,4,5라면 평균은 ( 1+ 2+ 3+ 4+ 5) / 5 = 3이 됩니다.

평균의 의미와 특징

-평균의 의미: 자료의 중심값으로서 자료의 특성을 대표하는 값

-수학적 연산이 쉽다.

-모든 자료로 부터 영향을 받는다. 이상한 값의 영향을 심각하게 받는다. (아웃라이어에 취약하다)

- 분산(표준편차)의 계산 등 통계분석의 대표적인 값

분산

\(Variance = \frac{ \Sigma_{i=1}^{n} (x_i - \bar{x})^{2} } { n-1} \)

분산 = \(\frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{4} = 2.5\)

분자 부분은 각 값에서 평균을 뺀 것임. 빼다보니 +, - 가 더해지면서 값이 뭉개지는데, 이 문제를 해결하기위해서 강제로 모든 값을 플러스로 만들어준다.

분모 부분은 n(자료의개수)가 아닌 n-1 (자료의 개수- 1)로 나눈다. 이유는 이미 분자에서 평균값으로 한번씩 다 뺴주었기 때문입니다. 따라서 분자에서 사용된 자료의 개수는 n-1로 이해하면된다.

- 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리

- 분자부분은 자료의 값이 평균값으로 부터 얼마나 먼 거리에 있는지의 합이고, 이 거리의 합을 자료의 개수로 나누었으니, 분산은 자료의 값이 평균값으로 부터 평균적으로 얼마나 멀어져있는가를 말한다.

=> 분산이란 내가 가진 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리

- 앞의 계산의 분자부분은 제곱합이라고 표현하고, 분모부분은 자유도라고 표현한다.

\(Variance = \frac{ \Sigma_{i=1}^{n} (x_i - \bar{x})^{2} } { n-1} = \frac{제곱합}{자유도} \) = 제곱합의 평균

표준편차(Standard Deviation) = \(\sqrt{Variance}\)

위의 분산은 제곱으로 만들어졌으니, 루트를 씌워 다시 보정하면 표준편차가 된다.

사실 중심값의 개념은 평균말고도 중간값이나 최빈값등 다른 후보들도 있지만,

평균과 분산이 주로 나오는 이유는...

- 계산이 쉽다. 데이터가 10000개가 되면 중심값이나 최빈값은 계산이 아닌 찾기가 된다.

- 가우스에 따르면, 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정방법이고, 그 결과 평균값이 가장 좋은 추정값이 됨.

- 체비체프에 따르면 데이터의 불규칙성이 어떠하든 [평균값 +- 2xSD(표준편차)] 범위안에는 반드시 전체의 4분의 3이상의 데이터가 존재한다고 증명함.

결론

평균과 분산이 매우 중심이며, 2개만으로도 훌륭하게 데이터를 설명할 수 있다

분산이 매우 중요하다.

통계는 분산의 마법이다.

질문쟁이