* Jupyter Notebook에서 작성했습니다.
https://mkk4726.tistory.com/20
와디즈 url, 상품 코드 가져오기
와디즈(wadiz)라는 보상형 크라우드 플랫폼을 대상으로 프로젝트를 진행 중이다. 상품들의 정보를 불러오기 위해서는 상품들의 코드를 알거나 url을 알면된다. 이를 통해 html을 받아와 원하는 정
mkk4726.tistory.com
https://mkk4726.tistory.com/21
와디즈 크롤링 - 필요한 정보 수집해오기
* Colab에서 작성되었습니다. 전편 (https://mkk4726.tistory.com/20) 에서 만든, 홈페이지 정보를 가지고 있는 meta.csv를 이용해 이번에는 원하는 정보들을 추출해올 것이다. 기간, 새소식 수, 본문에 있는
mkk4726.tistory.com
수집해온 정보를 바탕으로 모델링을 진행했다.
제공된 csv파일만 사용해보다가 직접 만든 csv파일을 이용해 모델링을 진행해보니, 기분이 꽤나 좋았다.
재미가 느껴졌다.
데이터를 살펴보니 꽤나 전처리해줘야할게 있었다.
데이터타입을 바꿔주고 결측치, 문제가 있는 부분을 처리해주었다.
전처리를 하고나니 200개정도가 삭제되었다. 원래 940개에서 770개로 줄어들었다.
모델링을 하려고 보니 데이터수가 너무 적게 느껴져 더 많이 수집해야겠다는 생각이 들었다.
전체 777개 중 707개가 성공, 70개가 실패한 상품이다.
10배정도 차이나는데 아마 추천순으로 정렬해주는 홈페이지에서 상품을 따왔기에 그런 것 같다.
추가적으로 데이터를 수집하면서 보완해야할 점이라고 생각한다.
성공과 실패에 따라 값의 차이가 얼마나 나는지 살펴봤다.
target(목표금액)의 경우 0.31정도로 실패한 상품이 더 높은 금액을 목표로 삼았음을 알 수 있다.
그 외에 나머지값들은 성공한 상품들이 모두 높았다.
확실하지는 않지만 피처들이 어느정도 의미를 보인다고 생각할 수 있는 부분이다.
다음으로는 카테고리에 따른 성공률 차이를 살펴봤다.
패션-잡화가 208개로가장 많았고 소셜-캠패인과 캐릭터-굿즈는 4개로 가장 적었다.
개수가 적은 카테고리들은 비교할 수 없지만 여행-레저의 경우 47개로 어느정도 모집단을 대표할 수 있다고 가정했을 때, 태크-가전과 꽤 큰 차이를 보였다.
이로써 카테고리도 성공여부를 판별하는데 영향을 미칠 것이라 판단할 수 있었다.
우선 가장 기본적인 모델인 Logistic Regression과 RandomForest를 이용해 결과를 살펴봤다.
모델의 성능은 다음과 같은 함수를 만들어 확인했다.
random_state를 바꿔가며 train, test set을 만들고 학습, 평가했다. 그리고 평균한 값을 결과로 삼았다.
정확도, 정밀도, 재현율, f1_score을 살펴봤다. randomforest모델이 더 우세하다고 판단할 수 있을 것 같다.
이렇게 수집한 결과로 간단한 EDA와 Modeling을 해봤다.
간단한 모델로도 96%정도의 성능을 보여 다행이라고 생각한다.
프로젝트를 진행하면서 더 결과를 내봐야겠지만, 예측모델을 만드는 것은 괜찮을 것 같다.
다만 차별성을 얼마나 띌 수 있을지는 의문이다. 이에 대한 고민을 많이 해봐야겠다.
'DataScience > MachineLearning' 카테고리의 다른 글
[평가지표] AUC-ROC Curve (0) | 2023.07.14 |
---|---|
[평가지표] Confustion Matrix (2) | 2023.07.14 |
ML - NaiveBayes, Scikit learn (0) | 2021.10.31 |
ML - NaiveBayes (0) | 2021.10.31 |
ML - 텍스트 분석(Text Analysis) (0) | 2021.05.13 |
댓글