벤치마크 사용하면 안되나?
개념 확인에 필요한 충분한 단어라고 보기 어려웠다.
일단 토큰화로 countvectorizer 를 사용 → 적절한 토큰화 필요
한국어 토큰화 필요한 이유
https://velog.io/@hyewon0309/LM-한국어-Tokenizer-Python
첫 번째 이유는 한국어는 띄어쓰기가 제대로 지켜지지 않는 경우가 많다는 것이다.
두 번째 이유는 한국어는 교착어이기 때문이다.
한국어 토크나이저 : 주로 KoNLPy
비교 :
https://han-py.tistory.com/283
Okt
Mecab : 빠름
Komoran
Hannanum
Kkma
kahii 도 있었던듯?
형태소 비교 분리되는 케이스
http://incredible.ai/nlp/2016/12/28/NLP/