Linear Regression, 선형모형, 선형회귀모형, 회귀분석 등등의 이름으로 불리고 있다.
선형회귀를 처음 배울 때 도대체 선형은 뭐고 회귀는 뭔지 이해가 안됐었는데,
공부하다 보니 그 의미를 이제야 알 것 같다.
1. Linear
선형이라는 의미는 선형결합을 의미한다.
$\beta$와 $X$의 선형결합으로 $Y$값을 나타낸다. ($\beta$와 $X$의 곱으로 )
$ Y = \beta_0 + \beta_1 * X_1 $에서 중요한 것은 $\beta$이다.
즉 다음 식도 선형결합을 만족한다.
$ Y = \beta_0 + \beta_1 * X_1^3 $
2. Regression
regression $\equiv$ regression to the mean
- 좋은 시즌을 보낸 스포츠 스타는 나쁜 시즌을 보낼 것이다.
- 상위 50%와 하위 50%로 나눈 후 테스트해보면, 하위 50%가 더 잘할 것이다.
즉 regression은 평균으로의 회귀, 돌아감을 의미한다.
쉽게 말하면, 확률변수들은 평균으로 회귀하기 때문에 평균으로 예측하자는 의미이다.
선형회귀의 컨셉은 X와 Y의 관계를 밝혀내고 이를 통해 예측하자는 것.
Y는 X와 $\beta$의 선형결합으로 이루어져있고, Y는 정규분포를 따르는 확률변수로써 이의 평균으로 예측한다.
$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon$ ,
여기서 $\varepsilon$은 $E(\varepsilon) =0, Var(\varepsilon) = \sigma^2$인 정규분포를 따르는 확률변수이다.
즉 $Y$는 정규분포를 띄며 존재한다.
그럼 이 중에 어떤 값으로 예측을 해야할까? 여기서 regression의 의미가 나타난다.
즉 결국 평균으로 회귀하기 때문에 평균값으로 예측하자는 것이다.
'DataScience > Statistics' 카테고리의 다른 글
MLE vs MAP 의 직관적 이해 (0) | 2023.09.22 |
---|---|
통계가 무엇인지 한마디로 정의하면 (0) | 2023.06.16 |
ANOVA, 분산분석 (0) | 2022.04.12 |
통계 - 기술통계학(descriptive statistics) (0) | 2021.05.11 |
댓글