자연어 처리
1. 자연어 처리란
자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.
자연 언어 처리는 연구 대상이 언어 이기 때문에 당연하게도 언어 자체를 연구하는 언어학과 언어 현상의 내적 기재를 탐구하는 언어 인지 과학과 연관이 깊다.
구현을 위해 수학적 통계적 도구를 많이 활용하며 특히 기계학습 도구를 많이 사용하는 대표적인 분야이다.
정보검색, QA 시스템, 문서 자동 분류, 신문기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있다.
2. 자연어 처리 단계
1) 형태소 분석(Morphological Analysis)
자연어의 최소 의미인 형태소를 식별하는 언어 처리 과정이다. 형태소 분석의 배경에는 형태론(morphorlogy)이 있다.
형태론(形態論)은 단어의 어형 변화를 다루는 문법의 한 분야이며, 어형론(語形論)이라고도 한다. 형태론은 형태소를 분석하고 그 형태소 간의 상관관계를 규명하는 데 초점을 맞추고 있다.
형태소(形態素, morpheme): 의미가 있는 언어 단위 중 가장 작은 언어 단위. 형태소는 상보적 분포를 가지는 이형태의 집합으로 볼 수 있다.
이형태(異形態, allomorph): 환경에 따라서 다른 형태를 띤 형태소. ‘-을/-를’, ‘-이/-가’, ‘-d/-ed’(영어의 과거형 접미어)는 동일 형태소의 이형태이다.
기본형(基本形, basic allomorph): 이형태 중 가장 그 본래의 형태에 가까운 것.
형태론은 자연어에 나타난 문자의 형태를 세 가지 관점으로 보고 있다.
Lexeme 형태론
word 기반 형태론
Morpheme 형태론
Morpheme 형태론의 관점에 대한 처리가 형태소 분석(morphological analysis)이다.
2) 구문 분석(Syntax Analysis)
주어, 동사, 목적어 등의 문장 성분을 판별해 문장 성분에 따른 문장 구조를 분석하는 과정이다.
구문(構文, sentence structure)은 자연어 문장을 올바르게 구성하기 위한 규칙이나 문법에 해당하는 어법 정도를 의미한다.
구문 분석은 언어학적인 의미에서 통사 분석이라고도 불리는데, 통사(統辭, syntax)는 생각이나 말의 완결을 나타내는 최소 단위인 문장을 분석한다는 의미이다.
구문 분석 수행 시 구문 분석기(parser)를 이용한다. 구문 분석 후에는 구문 트리(syntax tree) 또는 파스 트리(parse tree)를 만든다.
3) 의미 분석(Semantic Analysis)
통사 분석 결과에 해석을 가하여 문장이 가진 의미를 분석하는 것으로 형태소가 가진 의미를 표현하는 지식 표현 기법이 요구된다.
의미 분석과 관련한 작업의 예로 개체명 분석(named entity recognition)이 있다. 개체명 분석은 명, 지명, 기관명, 숫자 등과 같이 사전 정의된 카테고리로 태깅해 의미를 분석하는 작업이다.
4) 화용 분석(Pragmatic Analysis)
대명사가 지시하는 대용어(anaphora)가 무엇인지 찾아내고, 화자가 원하는 행위(speech act)가 무엇인지를 분석한다. 실세계 지식과 상식의 표현이 요구된다.
[출처 및 참고]
- [https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC](https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC)
- https://happygrammer.github.io/nlp/intro-nlp-2/