본문 바로가기

DataScience/MachineLearning23

ML - NaiveBayes 오늘은 나이브 베이즈에 대해 배웠다. 처음 듣고서는 꽤 어려운 녀석인 줄 알았는데 쉬운 녀석이었다. 친해지기 어렵지않았다. 금방 친해질 수 있었다. 이 개념에 대해 이해하기 위해서는 베이즈 이론, 가능도. 이 2가지 개념에 대한 이해가 필요하다. 1. 베이즈 이론 베이즈 이론이란 수학시간에 다 한번씩은 봤던 개념이다. 1.1 사전확률 어떤 사람을 보고 성별을 맞춘다고 생각해보자. 사람은 남녀로 구분되고 이 비율은 반 반이니까 우리가 이 사람의 성별에 대해 가지고 있는 확률은 다음과 같다. P(남자) = 0.5, P(여자) = 0.5 이게 사전확률이다. 어떤 관측치를 얻기 전에 가지고 있는 확률이다. 1.2 사후확률 그 후 관측치를 가지.. 2021. 10. 31.
ML - 텍스트 분석(Text Analysis) 먼저 NLP(Natural Langage Processing)은 머신이 인간의 언어를 이해하는데 중점을 두고 발전해왔으며 Text Mining이라고도 불린다. 텍스트 분석은 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전했다고 한다. 사실 이 2개가 무슨 차이인지 잘 모르겠다. 관련된 정보들을 배우다보면 알게 될 것 같다. NLP는 텍스트 분석을 향상하게 하는 기반 기술정도로만 일단 이해하고 있다. - 텍스트 분석은 크게 4가지 종류가 있다. 1. 텍스트 분류 2. 감성 분석 3. 텍스트 요약 4. 텍스트 군집화와 유사도 측정 - 텍스트 분석을 하는 과정은 크게 3가지로 나뉜다. 1. 텍스트 전처리 2. 피처 벡터화 / 추출 3. ML 모델 수립 및 학습/예측/평가 즉 비.. 2021. 5. 13.
ML - RFM기법 고객 세그먼트(Customer Segmentation)이란 다양한 기준으로 고객을 분류하는 기법을 말한다. 이는 CRM이나 마케팅에서 중요한 부분이라고 한다. 다양한 기법들이 존재하는데 이 중 RFM기법에 대해 공부했다. RFM은 Recency, Frequency, Monetary Value를 기준으로 군집화하는 것을 말한다. 정확히는 데이터 집합을 이 3가지에 대한 집합으로 만든 후 군집화를 수행한다. 위와 같은 데이터집합을 아래와 같은 데이터 집합으로 바꿔준다. 그 후에 군집화를 수행하면 되는데 그 전에 데이터 값의 분포도를 그려보면 굉장히 왜곡된 분포도를 가지고 있음을 알 수 있다. 더 구체적인 값을 보면. mean과 median값을 비교해보면 그 차이가 꽤나 큼을 알 수 있고 std값도 엄청 크다.. 2021. 5. 13.