불용어
보이기
불용어(Stop word) 또는 제외어는 불용 목록(부정 사전)에 있는 단어로, 자연어 데이터(텍스트) 처리 전후에 중요하지 않기 때문에 필터링(즉, 정지)된다.[1] 모든 자연어 처리 도구에서 사용되는 단일한 범용 불용어 목록은 없으며, 불용어 식별을 위해 합의된 규칙도 없으며, 실제로 모든 도구가 이러한 목록을 사용하는 것도 아니다. 따라서 특정 목적에 따라 임의의 단어 그룹을 불용 단어로 선택할 수 있다. 시간이 지남에 따라 [정보 검색] 시스템의 일반적인 추세는 상당히 큰 불용 목록(200~300개 용어)의 표준 사용에서 매우 작은 불용 목록(7~12개 용어), 전혀 불용 목록이 없는 것까지 이어졌다.[2]
같이 보기
[편집]각주
[편집]- ↑ Rajaraman, A.; Ullman, J. D. (2011). 〈Data Mining〉 (PDF). 《Mining of Massive Datasets》. 1–17쪽. doi:10.1017/CBO9781139058452.002. ISBN 9781139058452.
- ↑ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). 《Introduction to Information Retrieval》. Cambridge University Press. 27쪽.