공대베짱이

한국어 토큰화의 어려움

1. 한국어에서의 토큰화의 어려움 영어는 New York과 같은 합성어나 he’s와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 거의 대부분의 경우에서 단어 단위로 띄어쓰기가 이루어지기 때문에 띄어쓰기 토큰화와 단어 토큰화가 거의 같기 때문이다. 하지만...

Java 문자 인코딩

1. 문자 인코딩의 중요성 우리는 종종 라틴어나 아랍어와 같은 다양한 쓰기 스크립트로 여러 언어에 속하는 텍스트를 처리해야 한다. 모든 언어의 모든 문자는 어떻게든 1과 0의 집합에 매핑되어야 한다. 컴퓨터가 우리의 모든 언어를 올바르게 처리할 수 있다는 것은 정말 놀라운 일이다. 이를 제대로 수행하려면 문자 인코딩에 대해 생각할 필요가 있다. 그렇...