DataScience/Dacon2 인구 데이터 기반 소득 예측 경진대회 - 전처리 https://mkk4726.tistory.com/30 인구 데이터 기반 소득 예측 경진대회 - EDA * JupyterNotebook에서 작성되었습니다. Dacon basic에 인구 데이터 기반 소득 예측 경진대회가 열렸다. 소득 수준이 50k보다 높은지 낮은지를 예측하는 이진분류 문제다. 모델링에 앞서 데이터를 탐색하 mkk4726.tistory.com EDA에 이어서 전처리 후 간단한 모델링까지 진행했습니다. 전처리는 3가지 과정으로 진행됩니다. 결측치 처리 -> 정규화 -> one-hot encoding. 1. 결측치 처리 결측치를 확인해보니 workclass, occupation, native.country에 결측치가 존재합니다. 먼저 native.country는 EDA과정에서 확인했 듯 대부분.. 2022. 4. 26. 인구 데이터 기반 소득 예측 경진대회 - EDA * JupyterNotebook에서 작성되었습니다. Dacon basic에 인구 데이터 기반 소득 예측 경진대회가 열렸다. 소득 수준이 50k보다 높은지 낮은지를 예측하는 이진분류 문제다. 모델링에 앞서 데이터를 탐색하고 이해하는 과정인 탐색적 데이터 분석 과정을 진행했다. 학습데이터는 17480개, 테스트데이터는 15081개로 충분히 큰 데이터를 가지고 있어서 다양한 알고리즘을 적용할 수 있다. 학습 데이터에는 workclass와 occupation, native.country에 결측치가 있어 처리할 필요가 있다. 그 다음으로 target 구성 비율을 확인해보니 0이 1에 비해 3배정도 더 많았다. 추후에 SMOTE와 같은 오버샘플링을 통해 비율을 조정할 필요가 있겠다. 데이터 타입을 확인해보니 obj.. 2022. 4. 24. 이전 1 다음