자연어를 처리하는데 가장 기본이 되는 가설입니다.
분포 가설은 "단어의 뜻은 주위 단어와의 관계, 맥락에 의해 결정된다"를 말합니다.
이를 기반으로 단어를 벡터로 표현한, 분산표현을 얻고자 하며
여기에는 통계적 방법과 추론적 방법(word2vec)가 있습니다.
그 중 통계적 방법에 대해 정리해보겠습니다.
통계적 방법은 수를 세는 것입니다.
"You say goodby and I say hello" 와 같은 문장이 있다면
다음과 같은 동시발생행렬을 얻을 수 있습니다.
그리고 이를 바탕으로 유사도를 계산해볼 수 있습니다.
자연어를 다루는데 가장 중요한 것은 단어들을 벡터(분산표현)로 표현하는 것입니다.
여기서 가정하는 가설이 분포가설이며, 맥락이 단어의 의미를 결정한다는 것입니다.
분산표현을 얻기 위한 방법 중 하나가 통계적 방법이며, 주위 단어의 수를 세는 방법입니다.
분포가설은 굉장히 직관적입니다.
대표적으로 "괜찮습니다"와 같은 단어들은 맥락에 따라 정반대의 의미를 가집니다.
" 이것 좀 드셔보세요~ " -> " 아 괜찮습니다 " , 거절의 의미
" 오늘 몸 괜찮아? " -> "아 괜찮습니다" , 몸 상태가 좋다는 긍정의 의미
'DataScience > NLP' 카테고리의 다른 글
RNN으로 스팸 메일 분류하기 (0) | 2023.07.30 |
---|---|
Word Embedding 이란? (0) | 2023.07.18 |
영어에 비해 한국어에서 자연어처리가 더 어려운 이유 (0) | 2023.07.15 |
댓글