DataScience/Statistics
ANOVA, 분산분석
mkk4726
2022. 4. 12. 09:49
ANOVA ( Analysis Of Variance ), 분산분석에 대해 정리해보려고 한다.
정확히 이해하지 못하고 있었는데, 김성범 교수님의 강의를 듣고 이해가 됐다.
https://www.youtube.com/watch?v=4Nvv8IBwqxE&list=PLpIPLT0Pf7IqS4as3nefPyGv94r2aY6IT&index=1&t=3069s
분산분석의 컨셉은 말 그대로 분산을 이용해 집단 간의 평균을 분석한다는 것이다.
이를 이해하기 위해서는 3개의 분산에 대한 정의를 해야한다. SST, SSA, SSE
수식을 써보려고 했는데 쓰는게 쉽지 않아서 전체적인 컨셉에 대해서만 설명해보려 한다.
- SST = (개별 값 - 전체 평균) = 전체 분산
- SSA = (집단 평균 - 전체 평균) = 집단 간의 분산
- SSE = (집단 평균 - 개별 값) = 집단 안에서의 분산
따라서 SST = SSA + SSE
여기서 우리는 집단 간의 평균이 같은지에 대해 알아보는 것이다.
집단 간의 평균이 같다면 SSE >> SSA 가 되어야할 것이다.
왜냐하면 집단 간의 평균이 같다면 (집단 평균 - 전체 평균)은 매우 작아질 것이기 때문이다.
따라서 SSA >> SSE라면 집단 간의 평균이 다르다 라고 결론지을 수 있을 것이고
SSA >> SSE는 $\frac{SSA}{SSE}$ > 충분히 큰수 라고 표현할 수 있다.
즉 분산을 이용해 평균에 대해 검정하는 것이 ANOVA 분석인 것이다.