본문 바로가기

NLP/도서

[Chapter 5] Part Of Speech Tagging (1)

Part-of-Speech Tagging 필요 이유

  단어와 주변 단어에 대한 정보를 제공해준다. 음성인식 모델, 자연스러운 발음을 할 수 있는 TTS 시스템, 정보 검색 Stemming 과정에서 활용될 수 있다.

 

자연스러운 TTS에 사용될 수 있는 예 [대문자는 악센트]
 content  : CONtent  [명사] conTENT  [형용사]
 object   : OBject   [명사] obJECT   [동사]
 discount : DIScount [명사] disCOUNT [동사]

Part-of-Speech ?

  영어권에서는 8 품사를 가지고 있으며, Closed Class와 Open Class로 분류할 수 있다. Closed Class는 단어의 집합이 고정되어 있는 품사들의 집합을 말한다. Open Class는 단어의 집합이 변경될 수 있는 품사들의 집합을 말한다.

 

Open Class   : Noun[명사], Verb[동사], Adjective[형용사], Adverb[부사]
Closed Class : Pronoun[대명사], Preposition[전치사], Conjunction[접속사], Determiner[한정사]

Part-of-Speech Tagging ?

  Part-of-Speech Tagging은 품사를 단어에 태깅하는 것을 말한다. 태깅은 복잡한 구문 지식, 명사 수정자의 태그 선택, 과거분사와 형용사의 구분 모호성 등의 문제를 가지고 있다. 이러한 문제들을 해결해 주어진 단어에 가장 적절한 태그를 도출해내는 것이 Tagging의 주된 목적이다.

  단어 태깅에 사용되는 태그의 집합은 다양하며 책에서 Brwon Corpus Tag Set[87], C5 Tag Set[61], Penn Treebank Tag Set[45]를 소개해주고 있다. 각 태그 집합에 따라 얻을 수 있는 정보 차이가 발생하며, Penn Treebank에는 전치사로 Brwon Corpus와 C5에서는 전치사와 부정사로 구분되는 to를 예로 들 수 있다.

 

to/IN give/VB priority/NN to/IN teacher/NN pay/NN raises/NNS [Penn]
to/TO give/VB priority/NN to/IN teacher/NN pay/NN raises/NNS [Braown, C5]

Part-of-Speech Tagging 구현 방법

  Tagging Algorithm은 Rule-based tagger와 Stochastic tagger 2가지로 구분된다. Rule-based tagger는 수기로 입력한 명확성 규칙 데이터 베이스를 기반으로 태깅을 하는 방식이다. 책에서 EngCG를 소개하고 있다. Stochastic Tagger는 Corpus를 통해 학습한 확률을 통해 태깅을 하는 방식이다. 책에서 HMM tagger를 소개하고 있다.

'NLP > 도서' 카테고리의 다른 글

[Chapter 6] Hidden Markov Model  (0) 2022.08.14
[Chapter 6] Markov Chains  (0) 2022.08.07
[Chapter 5] Part Of Speech Tagging (2)  (0) 2022.07.17
[Chapter4] N-gram 평가 방법  (0) 2022.06.19
[Chapter 4 ] N-gram 공부 정리  (0) 2022.05.15