본문 바로가기
DataScience/MachineLearning

[트리계열 이해하기] 3. AdaBoost

by mkk4726 2023. 7. 28.

AdaBoost는 이름에서 알 수 있 듯, Boosting 계열 모델 중 하나입니다.

Boosting은 Ensemble 기법 중 하나로, Bagging과 다르게 Sequenital한 기법입니다.

2023.07.28 - [DataScience/MachineLearning] - [트리계열 이해하기] 2. Random Forest (Feature Importance Score 계산하는 법)

 

[트리계열 이해하기] 2. Random Forest (Feature Importance Score 계산하는 법)

Random Forest를 이해하기 위해서는 ensemble과 bagging을 이해할 필요가 있습니다. 1. Ensemble 앙상블이란 함께 결과를 만드는 하나의 그룹입니다. 앙상블의 기본 개념은 여럿이 모이면 혼자일 때보다 더

mkk4726.tistory.com

Bagging에 대한 개념은 위의 글을 참고하면 됩니다.

그림1. Boosting 기본 컨셉

 

Boosting의 기본 컨셉은 그 전 분류기에서 못 맞춘 것들에 대해 학습해나가겠다는 것입니다.

 

Bagging에서는 데이터를 sampling해 여러 약한 분류기에 학습시키고 결과를 Voting하는 parellel하게 학습을 진행했다면, 

Boosting에서는 순서대로 약한 분류기가 학습을 하고 이 결과를 바탕으로 학습을 진행해나갑니다.

 

이 컨셉을 가장 직관적으로 이용하고 있는 모델이 AdaBoost 모델입니다.

 


그림2. AdaBoost 기본 개념

순서대로 학습을 진행하면서, 정답을 더 잘 맞추기 위해 틀린 데이터에 대해 가중치를 부여합니다.

그러면 다음에 학습하는 분류기는 이를 정답으로 분류하기 위한 기준을 세우고, 이를 반복합니다.

 

이 과정을 좀 더 자세히 설명하자면,

데이터 포인트를 다음의 식을 통해 업데이트합니다.

 

- 업데이트 하는 식 : $D_{t+1}(i) = \frac{D_{t}(i)exp(-\alpha_iy_ih_t(x_i))}{Z_t}$

- $\alpha_t = \frac{1}{2}ln(\frac{1-\epsilon_t}{\epsilon_t}) $

- $\epsilon_t$ : 오답률

- $y_i$ : 정답 label, $h_t(x_i)$ : 예측 label

.

이 식을 직관적으로 이해해보면,

예측과 정답이 같을 때는 $exp(-\alpha_iy_ih_t(x_i))$이 값이 0보다 작게 되어 데이터를 작게 만들고 , 

다를 때는 0보다 크게 되어 데이터를 크게 만들게 됩니다.

 

얼마나 작게 또는 크게 만드는 값이 $\alpha_t$가 되고 이는 오답률을 기반으로 구하게 됩니다.

 

즉, 오답률을 기반으로 틀린 값은 크게, 맞은 값은 작게 만드는 것입니다.

 

그리고 이 과정을 거친 후 이를 종합해 다음과 같이 최종 예측을 합니다.

그림3. 최종 식에 대한 개념

- 최종 식 : $H(x') = sign(\sum_{i=1}^T \alpha_ih_t(x'))$

 

 

 

 

 


- 출처

그림 1: https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.geeksforgeeks.org%2Fboosting-in-machine-learning-boosting-and-adaboost%2F&psig=AOvVaw32Hlc4EMco0yxh1sWWAJ6M&ust=1690595722503000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCKDH1_2lsIADFQAAAAAdAAAAABAI 

그림2:https://www.google.com/url?sa=i&url=https%3A%2F%2Fpub.towardsai.net%2Fall-about-adaboost-ba232b5521e9&psig=AOvVaw1dmH2OQRTsOtjI_kgJu1uy&ust=1690596037635000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCKCV8JOnsIADFQAAAAAdAAAAABAE

그림3:https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DBoGNyWW9-mE&psig=AOvVaw1dmH2OQRTsOtjI_kgJu1uy&ust=1690596037635000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCKCV8JOnsIADFQAAAAAdAAAAABAI

 

- Reference

패스트캠퍼스, 초격차 패키지 : 50개 프로젝트로 완벽하게 끝내는 머신러닝

댓글