Similarity model에게 필요한 훈련 데이터 모으기(소연)

WAI 에게 fitting되게 학습을 시키는 것보다 general하게 과학 개념을 학습시킨 모델로 WAI 데이터에 evaluation하는게 더 유의하지 않을까 ? → 성능은 어떨지 모르겠다

일단 WAI의 대부분 문제는 ‘과학 단어 중심’
- 과학 개념에 자주 들어가는 개념어, 동사를 DB화
  - 개념어는 개념언어, 유의어, 뜻풀이 함께 DB → 개념어는 형용사 분석기의 nouns로 한다지만
  - verb는 유의어, 반의어를 함께 DB → 동사는 어떻게 할지 고민이다
pair 로 만들 template을 짠다! ‘은/는/이/가'는 너무 단순하지만..일단
- pos
  - “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1과 유의어”
  - “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1과 유의어”
- neg
  - “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “안/아니/못” + “동사1”
  - “개념어1”+ ‘은/는/이/가"+ “동사1” ↔ “개념어1”+ ‘은/는/이/가"+ “동사1의 반의어”
kore-sentence-similarity 에서도 이렇게 data를 만들고 train, test로 쪼갠 것 같다

<aside> 💡 WAI 데이터 → 답이 아닌 문장들의 다양성이 떨어짐

</aside>