본문 바로가기

DataScience/Statistics5

MLE vs MAP 의 직관적 이해 MLE(Maximum Likelihood Estimation)과 MAP(Maximum A Posteriror estimation)의 차이를 직관적으로 이해하는 건 꽤나 중요한 것 같다. 수식으로보면 다음과 같다. 값을 계산하기 위한 2가지 값(파라미터와 입력값) 이 주어졌을 때, 해당 값이 나올 확률이 얼마나 되는지를 likelihood (가능도) 라고 한다. 이 가능도를 최대화 하는게 MLE 이다. 반대로 입력값과 출력값이 주어졌을 때, 해당 파라미터가 나올 확률을 Posterior( 사후확률 ) 이라고 한다. 이는 앞에서 본 가능도 x 사전 확률 , 로 나타낼 수 있다. 이 2가지 방법에서의 관점 차이를 이해하는게 핵심이라고 생각한다. 먼저 MLE는 모수가 정해져있다는 가정이 깔려있다. 그렇기에 이 .. 2023. 9. 22.
통계가 무엇인지 한마디로 정의하면 통계를 한마디로 정의하자면 다음과 같다. "data reduction without loosing information" 즉 통계란 정보의 손실없이 데이터를 줄이는 학문이다. 대표적인 평균이라는 것을 보면, 결국 그 집단의 값을 하나의 값으로 줄이는 것이다. 조금 더 복잡하게는 다음과 같은 선형모델에서 $Y=\beta_0+\beta_1X$ 어떤 관계를 $\beta$로 줄이는 것을 의미한다. 결국 통계가 무엇이고, 목적이 무엇인지 알게 된다면, 통계란 과목은 꽤나 흥미롭게 다가오지 않을까 싶다. 옷을 깔끔하고 효율적으로 정리하는 법을 유튜브에서 봤을 때와 같은 희열이랄까. 통계에는 그런 재미가 있다. 2023. 6. 16.
[Linear Regression] 1. Linear와 Regression의 의미는 무엇일까? Linear Regression, 선형모형, 선형회귀모형, 회귀분석 등등의 이름으로 불리고 있다. 선형회귀를 처음 배울 때 도대체 선형은 뭐고 회귀는 뭔지 이해가 안됐었는데, 공부하다 보니 그 의미를 이제야 알 것 같다. 1. Linear 선형이라는 의미는 선형결합을 의미한다. $\beta$와 $X$의 선형결합으로 $Y$값을 나타낸다. ($\beta$와 $X$의 곱으로 ) $ Y = \beta_0 + \beta_1 * X_1 $에서 중요한 것은 $\beta$이다. 즉 다음 식도 선형결합을 만족한다. $ Y = \beta_0 + \beta_1 * X_1^3 $ 2. Regression regression $\equiv$ regression to the mean 좋은 시즌을 보낸 스포츠 스타는 나쁜 시즌을 .. 2023. 6. 16.
ANOVA, 분산분석 ANOVA ( Analysis Of Variance ), 분산분석에 대해 정리해보려고 한다. 정확히 이해하지 못하고 있었는데, 김성범 교수님의 강의를 듣고 이해가 됐다. https://www.youtube.com/watch?v=4Nvv8IBwqxE&list=PLpIPLT0Pf7IqS4as3nefPyGv94r2aY6IT&index=1&t=3069s 김성범 교수님 강의_YouTube 분산분석의 컨셉은 말 그대로 분산을 이용해 집단 간의 평균을 분석한다는 것이다. 이를 이해하기 위해서는 3개의 분산에 대한 정의를 해야한다. SST, SSA, SSE 수식을 써보려고 했는데 쓰는게 쉽지 않아서 전체적인 컨셉에 대해서만 설명해보려 한다. - SST = (개별 값 - 전체 평균) = 전체 분산 - SSA = (집단 .. 2022. 4. 12.
통계 - 기술통계학(descriptive statistics) 통계공부를 다시(?) 시작했다. 제대로 한 적이 없으니 처음한다고 해야되나. 오늘은 기술통계학에 대해 공부해봤다. 기술통계학이란 뭘까? 어떤 데이터가 있을 때 이를 한 눈에 보기 위한, 데이터에 대한 '감'을 잡기 위한 통계량(statistic)을 구하는 것이다. 대표적으로는 mean, median, quantile, percentile 등등이 있다. 이번에 새롭게 알게 된 것은 체비셰프 부등식(Chebyshev`s Inequaility)이다. 표본평균 +- ks 범위에 100(1-1/k**2)%이상의 데이터가 분포하고 있다는 것이다. 예를 들어 k=2일때 표준정규분포에서는 95%의 데이터가 분포한다. 체비셰프 부등식에 따르면 어떤 분포든 75%이상의 데이터가 분포한다는 것이다. 이를 통해 데이터의 mi.. 2021. 5. 11.