본문 바로가기
DataScience/MachineLearning

[eXplainable Method] 필요한 이유, Local vs Global Feature Importance Score

by mkk4726 2023. 7. 30.

모델의 설명력은 굉장히 중요합니다.

그 이유를 생각해보면 굉장히 직관적입니다.

 

어떤 모델을 제시할 때, 성능지표만으로는 설명도, 설득도 할 수 없기 때문입니다.

수치를 제시하는 것도 중요하지만, 그 모델이 어떻게 이런 결과를 냈는지를 설명할 수 있어야합니다.

그냥 정확도가 이정도 나왔고 정밀도가 높게 나왔다는 식의 이야기는 설득력을 갖추기 어렵습니다.

 

저는 아직 학생이라 현업에서의 경험은 없지만, 졸업과제를 할 때 이 부분에 대해 정말 많이 느낄 수 있었습니다.

"와디즈"라는 크라우드 펀딩 사이트에서 펀딩에 성공하는 제품을 판별하는 모델을 만들었습니다.

이에 대해 발표를 할 때, 수치 위주로 발표를 하니 청중인 학생들과 교수님들은 전혀 이해하지 못하는 모습을 보였습니다.

 

생각해보면 수치 위주가 아닌, 이 문제가 뭐고 모델이 가져오는 기대효과에 대해 강조하면서, 모델의 작동원리에 대해 설명했다면 더 좋은 결과를 얻을 수 있었을 것 같습니다.

 

모델을 설명하는 것은 굉장히 중요하고 , 그 방법 중 LIME과 SHAP에 대해 설명하기 전,

Global과 Local의 개념에 대해 정리해보려 합니다.

 


Global vs Local 기본 개념

 

Global은 말 그대로 전체 데이터셋에 대한 것을 의미합니다.

원래 구하던 Feature importance score의 경우 , 전체 셋에 대해 구했고 이는 global한 것을 말합니다.

 

반대로 local은 특정 부분에 대한 것을 의미하고,

1부터 10까지의 값을 가지는 y라면, 3에서의 중요도와 9에서의 중요도를 따로 따로 구하는 것을 의미합니다.

 

어떤 값을 예측했을 때 왜 그 값이 나왔는지를 확인해보는 것을 의미합니다.

 

이 개념을 정확히 짚고 넘어가는게 LIME과 SHAP 을 이해하는 첫 번째 스텝이라고 생각합니다.

 

 

 

 


- Reference

패스트캠퍼스, 초격차 패키지 : 50개 프로젝트로 완벽하게 끝내는 머신러닝

 

 

댓글