DataScience/NLP

영어에 비해 한국어에서 자연어처리가 더 어려운 이유

mkk4726 2023. 7. 15. 18:08

 

먼저 Corpus는 말뭉치라는 의미로, 데이터의 집합정도로 이해할 수 있고,

Token은 의미를 가지는 단위로 의미할 수 있습니다.

 

자연어를 처리하기 위해서는 Corpus를 Token으로 나누는 Tokenize과정이 필요합니다.

이 과정에서 영어에 비해 한국어가 더 어렵습니다.

그 이유는 단어의 구조에 있습니다.

 


먼저 영어의 경우 특수한 경우를 제외하고 띄어쓰기 단위로 쉽게 tokenize할 수 있습니다.

입력 Time is an illusion. Lunchtime double so!
출력   "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

하지만 한국어는 다릅니다.

한국어는 교착어로 어간과 어미가 합쳐져 하나의 어절을 구성합니다.

실질적인 의미를 가지는 것은 어간으로 더 작은 단위가 token이 됩니다.

입력  '에디가 책을 읽었다'
출력 자립 형태소 : 에디, 책
의존 형태소 : -가, -을, 읽-, -었, -다

형태소란 가장 작은 의미를 가지는 단위를 의미합니다.

즉 한국어는 형태소 단위로 tokenize 되어야 하기에 더 어렵습니다.

 


뿐만 아니라 한국어는 모아쓰기 방식으로,

풀어쓰기 방식인 영어에 비해 띄어쓰기가 지켜지지 않아도 이해하는데 어려움이 없어,

띄어쓰기가 잘 지켜지지 않는다는 점이 분석에 어려움을 줍니다.

 

모아쓰기 방식은  'ㄱ'+'ㅣ+'ㅁ' -> '김' 처럼, 모음과 자음을 모아 단어를 만드는 방식이며,

풀어쓰기는 apple 처럼 알파벳을 모아쓰지 않고 풀어써서 단어를 만드는 방식입니다.

 

EX1) 제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.

EX2) Tobeornottobethatisthequestion

 

위의 2가지 예시 모두 띄어쓰기가 지켜지지 않았지만, 한국어는 이해하는데 어려움이 없음을 알 수 있습니다.

 


정리하자면 한국어는 교착어로 형태소 단위로 tokenize 되어야 한다는 점과 ,

모아쓰기 방식으로 띄어쓰기가 지켜지지 않아도 이해하는데 어려움이 없어 띄어쓰기가 잘 지켜지지 않고,

따라서 띄어쓰기 단위로 tokenize가 어렵다는 점이 분석에 어려움을 줍니다.


- reference

https://wikidocs.net/21698

 

- 그림 출처

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.hani.co.kr%2Farti%2Fscience%2Fscience_general%2F909292.html&psig=AOvVaw2ox6IyOxkjbwqrPpxUx3Wn&ust=1689737167862000&source=images&cd=vfe&opi=89978449&ved=0CBEQjRxqFwoTCMCI1s2nl4ADFQAAAAAdAAAAABAL