아주 대단한 강의네요.
사실 UKF를 공부하다가 분산개념이 헷갈려서 통계쪽을 살펴보고있었습니다.
\(평균(Mean) = \frac{자료전체의 합(sum)} {자료의 개수(n)}\)
데이터가 1,2,3,4,5라면 평균은 ( 1+ 2+ 3+ 4+ 5) / 5 = 3이 됩니다.
평균의 의미와 특징
-평균의 의미: 자료의 중심값으로서 자료의 특성을 대표하는 값
-수학적 연산이 쉽다.
-모든 자료로 부터 영향을 받는다. 이상한 값의 영향을 심각하게 받는다. (아웃라이어에 취약하다)
- 분산(표준편차)의 계산 등 통계분석의 대표적인 값
분산
\(Variance = \frac{ \Sigma_{i=1}^{n} (x_i - \bar{x})^{2} } { n-1} \)
분산 = \(\frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{4} = 2.5\)
분자 부분은 각 값에서 평균을 뺀 것임. 빼다보니 +, - 가 더해지면서 값이 뭉개지는데, 이 문제를 해결하기위해서 강제로 모든 값을 플러스로 만들어준다.
분모 부분은 n(자료의개수)가 아닌 n-1 (자료의 개수- 1)로 나눈다. 이유는 이미 분자에서 평균값으로 한번씩 다 뺴주었기 때문입니다. 따라서 분자에서 사용된 자료의 개수는 n-1로 이해하면된다.
- 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리
- 분자부분은 자료의 값이 평균값으로 부터 얼마나 먼 거리에 있는지의 합이고, 이 거리의 합을 자료의 개수로 나누었으니, 분산은 자료의 값이 평균값으로 부터 평균적으로 얼마나 멀어져있는가를 말한다.
=> 분산이란 내가 가진 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리
- 앞의 계산의 분자부분은 제곱합이라고 표현하고, 분모부분은 자유도라고 표현한다.
\(Variance = \frac{ \Sigma_{i=1}^{n} (x_i - \bar{x})^{2} } { n-1} = \frac{제곱합}{자유도} \) = 제곱합의 평균
표준편차(Standard Deviation) = \(\sqrt{Variance}\)
위의 분산은 제곱으로 만들어졌으니, 루트를 씌워 다시 보정하면 표준편차가 된다.
사실 중심값의 개념은 평균말고도 중간값이나 최빈값등 다른 후보들도 있지만,
평균과 분산이 주로 나오는 이유는...
- 계산이 쉽다. 데이터가 10000개가 되면 중심값이나 최빈값은 계산이 아닌 찾기가 된다.
- 가우스에 따르면, 데이터의 불규칙성이 정규분포를 따르고 있으면, 최소제곱법이 가장 좋은 추정방법이고, 그 결과 평균값이 가장 좋은 추정값이 됨.
- 체비체프에 따르면 데이터의 불규칙성이 어떠하든 [평균값 +- 2xSD(표준편차)] 범위안에는 반드시 전체의 4분의 3이상의 데이터가 존재한다고 증명함.
결론
평균과 분산이 매우 중심이며, 2개만으로도 훌륭하게 데이터를 설명할 수 있다
분산이 매우 중요하다.
통계는 분산의 마법이다.
반응형
'Study > 칼만필터' 카테고리의 다른 글
[칼만필터] Chap 13. 무향칼만필터 (0) | 2022.01.15 |
---|---|
[통계] 공분산행렬과 PCA(주성분분석) (0) | 2022.01.15 |
[칼만필터] Chap 12. 확장칼만필터 (0) | 2022.01.15 |
[칼만필터] Chap 11. 기울기 자세 측정하기 (0) | 2022.01.15 |
[칼만필터] Chap 10. 영상 속의 물체 추적하기 (0) | 2022.01.15 |