본문 바로가기
DataScience/Statistics

[Linear Regression] 1. Linear와 Regression의 의미는 무엇일까?

by mkk4726 2023. 6. 16.

 

Linear Regression, 선형모형, 선형회귀모형, 회귀분석 등등의 이름으로 불리고 있다.

선형회귀를 처음 배울 때 도대체 선형은 뭐고 회귀는 뭔지 이해가 안됐었는데, 

공부하다 보니 그 의미를 이제야 알 것 같다.

 

1. Linear

선형이라는 의미는 선형결합을 의미한다.

$\beta$와 $X$의 선형결합으로 $Y$값을 나타낸다. ($\beta$와 $X$의 곱으로 )

$ Y = \beta_0 + \beta_1 * X_1 $에서 중요한 것은 $\beta$이다.

즉 다음 식도 선형결합을 만족한다.

$ Y = \beta_0 + \beta_1 * X_1^3 $

 

 

 

2. Regression

regression $\equiv$ regression to the mean

  • 좋은 시즌을 보낸 스포츠 스타는 나쁜 시즌을 보낼 것이다.
  • 상위 50%와 하위 50%로 나눈 후 테스트해보면, 하위 50%가 더 잘할 것이다.

즉 regression은 평균으로의 회귀, 돌아감을 의미한다.

 

쉽게 말하면, 확률변수들은 평균으로 회귀하기 때문에 평균으로 예측하자는 의미이다.

선형회귀의 컨셉은 X와 Y의 관계를 밝혀내고 이를 통해 예측하자는 것.

Y는 X와 $\beta$의 선형결합으로 이루어져있고, Y는 정규분포를 따르는 확률변수로써 이의 평균으로 예측한다.

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon$ ,

여기서 $\varepsilon$은 $E(\varepsilon) =0, Var(\varepsilon) = \sigma^2$인 정규분포를 따르는 확률변수이다.

즉 $Y$는 정규분포를 띄며 존재한다.

그럼 이 중에 어떤 값으로 예측을 해야할까? 여기서 regression의 의미가 나타난다.

즉 결국 평균으로 회귀하기 때문에 평균값으로 예측하자는 것이다.

 

 

 
 

댓글