팀내 데이터 가공 자료
지식인 크롤링 - Baseline Code(상렬)
지식인 크롤링 - 과학 과목(세연)
지식iN과 지식iN API 튜토리얼(세연)
팀 데이터 제작 과정
왜 가공이 필요한가?(소연)
Similarity model에게 필요한 훈련 데이터 모으기(소연)
사전크롤링_네이버.ipynb
반의어 제작
한국어 토큰화가 필요한 이유
- 한국어는 띄어쓰기가 제대로 지켜지지 않는 경우가 많다는 것이다.
- 두 번째 이유는 한국어는 교착어이기 때문이다.
Korean lemmatization (세연)