Q. 현재 modeling 궁금한 점 → paraKQC, sentence similarity 데이터로 학습시키고 실제 WAI에서 사용한 개념이 들어간 문장 비교하면, 그 개념어들이 대부분 tokenizer에 들어가있나? UNK 처리 되는 것도 많을 것 같은데
Q. klue로 학습만 된건지.. AI hub, 등등의 다른 데이터셋을 통해 추가 pre-training이 가능한지도 확인해보면 좋겠다.
Q. 왜 이 모델을 사용했는지에 대한 argue
참고 https://www.koreascience.or.kr/article/CFKO202130060697830.pdf
문장 similarity ablation을 위해 해볼 수 있는 것들
공통 단어는 - - 입니다 +sep+ sent1 sent2
(없으면 공통단어는 없습니다)