먼저 NLP(Natural Langage Processing)은 머신이 인간의 언어를 이해하는데 중점을 두고 발전해왔으며 Text Mining이라고도 불린다.
텍스트 분석은 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전했다고 한다.
사실 이 2개가 무슨 차이인지 잘 모르겠다. 관련된 정보들을 배우다보면 알게 될 것 같다.
NLP는 텍스트 분석을 향상하게 하는 기반 기술정도로만 일단 이해하고 있다.
- 텍스트 분석은 크게 4가지 종류가 있다.
1. 텍스트 분류 2. 감성 분석 3. 텍스트 요약 4. 텍스트 군집화와 유사도 측정
- 텍스트 분석을 하는 과정은 크게 3가지로 나뉜다.
1. 텍스트 전처리 2. 피처 벡터화 / 추출 3. ML 모델 수립 및 학습/예측/평가
즉 비정형데이터인 텍스트를 정형 데이터로 바꿔준 후에 ML에 적용한다는 개념이다.
1. 텍스트 전처리
바로 분석할 수 없기에 텍스트 정규화를 해준다.
클렌징, 정제, 토큰화 ,어근화 등의 다양한 텍스트 데이터의 사전작업을 수행하는 것을 의미한다.
토큰화는 문장 토큰화(텍스트 -> 문장)와 단어 토큰화(문장 -> 단어)로 구성되어있다.
Stemming과 Lemmatizaion을 사용하는데 단어가 문법적인 요소에 따라 달라지므로 원형을 찾아주는 과정이다.
Lemmatization이 Stemming보다 더 정교하며 그 대신 시간이 더 오래 걸린다고 한다.
역시 공부한 것과 정리한 것은 다르다. 많이 어렵다. 정리가 안되어있는게 느껴진다.
그러니까 더 많이 정리해볼려고 노력해봐야겠다.
'DataScience > MachineLearning' 카테고리의 다른 글
[평가지표] Confustion Matrix (2) | 2023.07.14 |
---|---|
와디즈 - 모델링 (0) | 2022.04.10 |
ML - NaiveBayes, Scikit learn (0) | 2021.10.31 |
ML - NaiveBayes (0) | 2021.10.31 |
ML - RFM기법 (0) | 2021.05.13 |
댓글