흐름을 생각해보자

Sparse Embedding

BM25로 문장을 embedding한 후에 각 vector들에 대한 self.embedding과 keyword의 embedding

행렬곱을 normalization 한 후에 가장 높은 것 + 일정 수치 이상

  1. normalization 값을 어떻게 할 것인가
  1. 일정 수치는 어떻게 정할 것인가

Dense Embedding

Dense Retriever의 경우 우리의 키워드가 문장의 어떤 단어와 연관이 높은지를 학습시켜줄 label이 필요하다

ex) 기온 - 온도가 연관이 있다는 label 필요

하지만 현재 그러한 데이터셋이 존재하지 않는 상황이기 때문에 이를 위한 작업은 너무 많은 시간을 소요하게 될 것 같다.

따라서 이는 제외하는 것이 맞아보인다.

결과적으로 BM25로만의 embedding 이후에 결과를 살펴봐야 할 것 같다