본문 바로가기
DataScience/MachineLearning

ML - 텍스트 분석(Text Analysis)

by mkk4726 2021. 5. 13.

먼저 NLP(Natural Langage Processing)은 머신이 인간의 언어를 이해하는데 중점을 두고 발전해왔으며 Text Mining이라고도 불린다.

 

텍스트 분석은 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전했다고 한다.

 

사실 이 2개가 무슨 차이인지 잘 모르겠다. 관련된 정보들을 배우다보면 알게 될 것 같다.

NLP는 텍스트 분석을 향상하게 하는 기반 기술정도로만 일단 이해하고 있다.

 

- 텍스트 분석은 크게 4가지 종류가 있다.

1. 텍스트 분류 2. 감성 분석 3. 텍스트 요약 4. 텍스트 군집화와 유사도 측정

 

- 텍스트 분석을 하는 과정은 크게 3가지로 나뉜다.

1. 텍스트 전처리 2. 피처 벡터화 / 추출 3. ML 모델 수립 및 학습/예측/평가

 

즉 비정형데이터인 텍스트를 정형 데이터로 바꿔준 후에 ML에 적용한다는 개념이다.

 

1. 텍스트 전처리

바로 분석할 수 없기에 텍스트 정규화를 해준다. 

클렌징, 정제, 토큰화 ,어근화 등의 다양한 텍스트 데이터의 사전작업을 수행하는 것을 의미한다.

 

토큰화는 문장 토큰화(텍스트 -> 문장)와 단어 토큰화(문장 -> 단어)로 구성되어있다.

 

Stemming과 Lemmatizaion을 사용하는데 단어가 문법적인 요소에 따라 달라지므로 원형을 찾아주는 과정이다.

Lemmatization이 Stemming보다 더 정교하며 그 대신 시간이 더 오래 걸린다고 한다.

 


역시 공부한 것과 정리한 것은 다르다. 많이 어렵다. 정리가 안되어있는게 느껴진다.

그러니까 더 많이 정리해볼려고 노력해봐야겠다. 

 

 

'DataScience > MachineLearning' 카테고리의 다른 글

[평가지표] Confustion Matrix  (2) 2023.07.14
와디즈 - 모델링  (0) 2022.04.10
ML - NaiveBayes, Scikit learn  (0) 2021.10.31
ML - NaiveBayes  (0) 2021.10.31
ML - RFM기법  (0) 2021.05.13

댓글