WAI 에게 fitting되게 학습을 시키는 것보다 general하게 과학 개념을 학습시킨 모델로 WAI 데이터에 evaluation하는게 더 유의하지 않을까 ? → 성능은 어떨지 모르겠다
-
일단 WAI의 대부분 문제는 ‘과학 단어 중심’
- 과학 개념에 자주 들어가는 개념어, 동사를 DB화
- 개념어는 개념언어, 유의어, 뜻풀이 함께 DB → 개념어는 형용사 분석기의 nouns로 한다지만
- verb는 유의어, 반의어를 함께 DB → 동사는 어떻게 할지 고민이다
-
pair 로 만들 template을 짠다! ‘은/는/이/가'는 너무 단순하지만..일단
- pos
- “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1과 유의어”
- “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1과 유의어”
- neg
- “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “안/아니/못” + “동사1”
- “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1의 반의어”
-
kore-sentence-similarity 에서도 이렇게 data를 만들고 train, test로 쪼갠 것 같다

Negative sample 필요 케이스
<aside>
💡 WAI 데이터 → 답이 아닌 문장들의 다양성이 떨어짐
</aside>
- 부정어 (Mecab 기준 VCP, VCN)를 빼거나
- 동사에 부정어를 추가
- 동사를 다른 의미의 동사로 바꿔치우기
유의어 이해하지 못하는 케이스
질문 위주의 문장이 많음