본문 바로가기

NLP/도서

[Chapter 5] Part Of Speech Tagging (2)

1. Rule Based Part Of Speech Tagging

규칙 기반 태깅은 사전을 통해 각 단어에 잠재적 품사 목록을 만든다. 단어에 할당된 품사가 2개 이상인 경우 규칙을 통해 가장 적합한 품사를 정하는 방식이다. 규칙을 통한 품사를 정하는 건 해당 단어의 앞뒤 단어와 함께 이루어진다.

2. Step 1

사전을 통해 단어의 잠재적 품사 목록을 가져온다. 단어에 할당되는 품사는 TagSet에 따라 달라질 수 있다.

 

shown	SHOW PCP2 SVOO SVO SV
that 	ADV
	PRON DEM SG
     	DET CENTERAL DEM SG
     	CS

3. Step 2

규칙을 통해 가장 적합한 품사를 정하는 건 품사 목록에서 적합하지 않은 것을 제거하는 방식으로 진행된다. 조건에서 양수는 해당 단어의 뒤 단어를 뜻하며 음수는 해당 단어 앞 단어를 뜻한다.

 

Input : 'that'
if (+1 A || ADV || QUANT) && (+2 SENT-LIM) && (NOT -1 SVOC || A)
    Eliminate non-ADV tags
else 
    Eliminate ADV tag

4. Think

태깅방법 중 가장 오래된 방식이라고 한다. 그리고 실제 자연어 태깅 방식에도 적합하지 않다고 한다. 규칙을 직접 작성하는 비용도 크고 작성한 규칙의 예외 사항도 많기 때문인 것 같다.

'NLP > 도서' 카테고리의 다른 글

[Chapter 6] Hidden Markov Model  (0) 2022.08.14
[Chapter 6] Markov Chains  (0) 2022.08.07
[Chapter4] N-gram 평가 방법  (0) 2022.06.19
[Chapter 5] Part Of Speech Tagging (1)  (0) 2022.06.11
[Chapter 4 ] N-gram 공부 정리  (0) 2022.05.15