본문 바로가기

NLP/용어

단어 수를 세기 위해 기준이 되는 용어

  NLP에서는 Corpus(Corpora)의 단어 수를 사용한다. 단어를 셀 때 기준이 되는 것은 무엇일까?

 

  문장에서 Punctuation을 단어로 취급 유무에 따라 한 문장을 이루고 있는 단어의 개수는 달라진다. Punctuation은 온점(.), 쉼표(,), 물음표(?) 등을 포함하며, 문장 간의 경계와 물음표같이 의미를 식별하는 기준으로 사용된다. 

 

He stepped out into the hall, was delighted to encounter a water brother.

Punctuation 미포함 단어 개수 : 13개
Punctuation 포함된 단어 개수 : 15개

 

  Disfluencies는 깨진 단어를 나타내는 Fragment와 영어의 uh와 um같은 단어를 나타내는 Filler(Filled pauses)로 이루어져 있다. 받아쓰기 등 정확한 음성인식이 필요로 할 때는 Disfluencies는 단어로 취급하지 않는다. 하지만 Disfluencies를 통해 알 수 있는 발화자의 스트레스나 혼란 등에 대한 정보를 필요할 때는 단어로 취급한다.

 

I do uh main- mainly business data processing

Disfluencies 미포함 단어 개수 : 6개
Disfluenceis 포함된 단어 개수 : 8개 [Filler: uh] [Fragment: main-]

 

    Lemma는 cat[ cat, cats ]처럼 같은 어근을 갖는 단어의 집합이다. Wordform은 단어로부터 파생된 형태 그대로를 말한다. 아랍어처럼 형태론적으로 복잡한 경우 Lemma을 기준으로 단어의 개수를 셀 수 있다. 하지만 N-gram을 위한 영어의 음성인식의 경우 Wordform을 기준으로 단어의 개수를 센다.

 

I have four cats and she has three puppies

Lemma 기준 단어 개수    : 8개 [have: have, has]
WordForm 기준 단어 개수 : 9개

 

  단어의 Type은 Corpus에서 구별할 수 있는 단어의 숫자를 말한다. Tokens의 경우 Corpus에서 사용되는 모든 단어의 개수를 말한다.

 

They picnikced by the pool, then lay back on the grass and looked at the stars.

Type 기준 단어 개수  : 14개 [Punctuation X] [the 중복] 
Token 기준 단어 개수 : 16개 [Punctuation X]

 

  이 책의 경우 Coprus에서 단어의 개수를 셀 때 she's[she is]처럼 단어를 구분하는 Punctuation만 취급하기로 한다. 또한 단어의 형태 그대로를 기준으로 삼는 Wordform과 Corpus에서 구분되는 단어를 기준으로 삼는 Type을 사용한다.