ML - 텍스트 분석(Text Analysis)

먼저 NLP(Natural Langage Processing)은 머신이 인간의 언어를 이해하는데 중점을 두고 발전해왔으며 Text Mining이라고도 불린다.

텍스트 분석은 비정형 텍스트에서 의미있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전했다고 한다.

사실 이 2개가 무슨 차이인지 잘 모르겠다. 관련된 정보들을 배우다보면 알게 될 것 같다.

NLP는 텍스트 분석을 향상하게 하는 기반 기술정도로만 일단 이해하고 있다.

- 텍스트 분석은 크게 4가지 종류가 있다.

1. 텍스트 분류 2. 감성 분석 3. 텍스트 요약 4. 텍스트 군집화와 유사도 측정

- 텍스트 분석을 하는 과정은 크게 3가지로 나뉜다.

1. 텍스트 전처리 2. 피처 벡터화 / 추출 3. ML 모델 수립 및 학습/예측/평가

즉 비정형데이터인 텍스트를 정형 데이터로 바꿔준 후에 ML에 적용한다는 개념이다.

1. 텍스트 전처리

바로 분석할 수 없기에 텍스트 정규화를 해준다.

클렌징, 정제, 토큰화 ,어근화 등의 다양한 텍스트 데이터의 사전작업을 수행하는 것을 의미한다.

토큰화는 문장 토큰화(텍스트 -> 문장)와 단어 토큰화(문장 -> 단어)로 구성되어있다.

Stemming과 Lemmatizaion을 사용하는데 단어가 문법적인 요소에 따라 달라지므로 원형을 찾아주는 과정이다.

Lemmatization이 Stemming보다 더 정교하며 그 대신 시간이 더 오래 걸린다고 한다.

역시 공부한 것과 정리한 것은 다르다. 많이 어렵다. 정리가 안되어있는게 느껴진다.

그러니까 더 많이 정리해볼려고 노력해봐야겠다.

KeepLearning