Previous research

1. VLM metric

다양한 image와 text score dataset과 이들을 평가할 model-based automatic metrics들에 대한 연구가 진행되고 있습니다. 하지만 기존의 방법들은 신뢰도가 낮거나 특정 용도에 최적화되지 않은 경우가 많습니다. 특히, CLIP, BLIP과 같은 모델을 활용한 기존의 평가 방식은 정확도가 낮으며, 자연어 처리에서의 alignment dataset 및 training에 비해 image-text alignment를 위한 dataset과 automatic metrics들이 부족한 상황입니다.

이를 해결하기 위해, VLM의 성능을 보다 정교하게 평가할 수 있는 새로운 Metric을 개발하는 것이 방향성으로 연구를 진행하고 있습니다.

2. Eye4B 논문 개요

Eye4B 논문에서는  LVLM이 생성하는 다양한 스타일의 응답 중 BLV 사용자가 선호하는 유형을 분석하고, 이를 평가할 수 있는 벤치마크를 제안하였습니다.

2.1. 연구 주요 내용

  1. Eye4B 데이터셋 구축:
  2. BLV 사용자 연구(User Study) 진행:
  3. 모델 기반 평가 지표의 적합성 분석

결론 및 기여


3. I0T 논문 개요

VLMs은 image-text alignment 평가 및 다양한 멀티모달 작업에서 널리 활용되고 있으나, CLIP과 같은 기존 VLM들은 modality gap이라는 한계를 가지고 있다.

I0T 논문에서는 modality gap을 최소화하여 image-text alignment를 더욱 정밀하게 평가할 수 있는 새로운 방법인 I0T framework를 제안하였습니다.

연구 주요 내용