모델링 | Notion

Q. 현재 modeling 궁금한 점 → paraKQC, sentence similarity 데이터로 학습시키고 실제 WAI에서 사용한 개념이 들어간 문장 비교하면, 그 개념어들이 대부분 tokenizer에 들어가있나? UNK 처리 되는 것도 많을 것 같은데

Q. klue로 학습만 된건지.. AI hub, 등등의 다른 데이터셋을 통해 추가 pre-training이 가능한지도 확인해보면 좋겠다.

Q. 왜 이 모델을 사용했는지에 대한 argue

TODO : 국내 한국어 데이터로 학습된 모델, 각 모델이 학습된 데이터, 토크나이저 종류 정리+모델 파라미터 크기( 서비스 단에서는 모델의 크기가 거의 제일 중요한 이슈! 사이즈에 따른 성능 평가를 함께 제공하고 metric vs model size로 최종 제시하면 좋을 듯)

문장 similarity ablation을 위해 해볼 수 있는 것들

공통 단어는 - - 입니다 +sep+ sent1 sent2

(없으면 공통단어는 없습니다)