머신러닝을 공부하다보면 무조건 접할 수 밖에 없는 개념이 있습니다.
바로 bias와 variance인데요, 이에 대해 정리해보겠습니다.
그림1을 통해 두 개념에 대해 직관적으로 이해해볼 수 있습니다.
bias는 "목표물"과 "점의 평균"과의 차이입니다.
variance는 "점"과 "점의 평균"과의 차이입니다.
즉 bias는 정답에 얼마나 근접하느냐를 의미하고, variance는 얼마나 균일하게 정답을 예측하냐로 정리해볼 수 있습니다.
이를 수식으로 나타낼 수 있습니다.
Error는 x와 예측값 f(x)의 차이인데, 이는 그림2와 같이 Bias와 Variance로 분리해서 볼 수 있습니다.
Bias와 Variance를 모두 낮출 수 있으면 좋겠지만, 이 2개념은 trade-off 관계입니다.
이를 직관적으로 해석해보면, 목표에 맞추기 위해 예측치를 조정하다보면,
예측치끼리의 분산은 증가할 수 밖에 없는 것입니다.
예측치끼리의 분산을 줄이기 위해 예측을 전부 다 평균으로 한다면, 정답과 멀어질 수 밖에 없습니다.
모델은 이 중간지점에서 최적을 얻기 위해 노력해야하며,
정답을 맞추기 위해 모델을 복잡하게 만들며 overfitting을 예방하기 위해 제약을 추가하는 경우가 많습니다.
출처
그림1: https://www.google.com/url?sa=i&url=https%3A%2F%2Fbkshin.tistory.com%2Fentry%2F%25EB%25A8%25B8%25EC%258B%25A0%25EB%259F%25AC%25EB%258B%259D-12-%25ED%258E%25B8%25ED%2596%25A5Bias%25EC%2599%2580-%25EB%25B6%2584%25EC%2582%25B0Variance-Trade-off&psig=AOvVaw0umZcLzBUGjVEz5sDIOpuc&ust=1690594663736000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCJiU6oSisIADFQAAAAAdAAAAABAE
그림2: https://www.google.com/url?sa=i&url=https%3A%2F%2Fgaussian37.github.io%2Fmachine-learning-concept-bias_and_variance%2F&psig=AOvVaw0umZcLzBUGjVEz5sDIOpuc&ust=1690594663736000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCJiU6oSisIADFQAAAAAdAAAAABAI
'DataScience > MachineLearning' 카테고리의 다른 글
[트리계열 이해하기] 4. GBM (0) | 2023.07.29 |
---|---|
[트리계열 이해하기] 3. AdaBoost (0) | 2023.07.28 |
[트리계열 이해하기] 2. Random Forest (Feature Importance Score 계산하는 법) (0) | 2023.07.28 |
[트리계열 이해하기] 1. Decision Tree (0) | 2023.07.28 |
선형함수 정리 (Linear Regression, Ridge, Lasso, Elastic Net) (0) | 2023.07.28 |
댓글