NLP/용어 (1) 썸네일형 리스트형 단어 수를 세기 위해 기준이 되는 용어 NLP에서는 Corpus(Corpora)의 단어 수를 사용한다. 단어를 셀 때 기준이 되는 것은 무엇일까? 문장에서 Punctuation을 단어로 취급 유무에 따라 한 문장을 이루고 있는 단어의 개수는 달라진다. Punctuation은 온점(.), 쉼표(,), 물음표(?) 등을 포함하며, 문장 간의 경계와 물음표같이 의미를 식별하는 기준으로 사용된다. He stepped out into the hall, was delighted to encounter a water brother. Punctuation 미포함 단어 개수 : 13개 Punctuation 포함된 단어 개수 : 15개 Disfluencies는 깨진 단어를 나타내는 Fragment와 영어의 uh와 um같은 단어를 나타내는 Filler(Fille.. 이전 1 다음