Previous research

1. VLM metric

다양한 image와 text score dataset과 이들을 평가할 model-based automatic metrics들에 대한 연구가 진행되고 있습니다. 하지만 기존의 방법들은 신뢰도가 낮거나 특정 용도에 최적화되지 않은 경우가 많습니다. 특히, CLIP, BLIP과 같은 모델을 활용한 기존의 평가 방식은 정확도가 낮으며, 자연어 처리에서의 alignment dataset 및 training에 비해 image-text alignment를 위한 dataset과 automatic metrics들이 부족한 상황입니다.

이를 해결하기 위해, VLM의 성능을 보다 정교하게 평가할 수 있는 새로운 Metric을 개발하는 것이 방향성으로 연구를 진행하고 있습니다.

2. Eye4B 논문 개요

Eye4B 논문에서는 LVLM이 생성하는 다양한 스타일의 응답 중 BLV 사용자가 선호하는 유형을 분석하고, 이를 평가할 수 있는 벤치마크를 제안하였습니다.

2.1. 연구 주요 내용

Eye4B 데이터셋 구축:
- 1.1K개의 indoor/outdoor scene과 각 image에 대해 실행 가능한 5~10개의 request로 구성된 데이터셋을 구축하였습니다.
- request에 대한 response은 다양한 LVLM(GPT-4o mini, Qwen 등)에서 생성하고, 시각장애인 사용자들의 인터뷰 및 annotation을 통해 보완했습니다.
BLV 사용자 연구(User Study) 진행:
- 8명의 BLV 사용자를 대상으로, 6개의 LVLM이 생성한 response를 평가하도록 하였습니다.
- 평가 기준:
  1. Afraidness
  2. Nonactionability
  3. Sufficiency
  4. Conciseness
  5. Overall
모델 기반 평가 지표의 적합성 분석
- 기존의 image-text automatic metric들이 BLV 사용자의 피드백과 얼마나 잘 일치하는지 검토하였고, CLIPScore 등 기존의 automatic metric은 BLV 사용자의 선호도를 충분히 반영하지 못하는 문제를 발견하였습니다.

결론 및 기여

BLV 사용자들은 단순한 이미지 설명보다는 방향 정보, 장애물 정보, 단계별 이동 지침이 포함된 응답을 선호함을 확인했습니다.
기존의 자동 평가 지표가 BLV의 실제 선호도를 충분히 반영하지 못하므로, 새로운 평가 기준이 필요함을 강조하였습니다.

3. I0T 논문 개요

VLMs은 image-text alignment 평가 및 다양한 멀티모달 작업에서 널리 활용되고 있으나, CLIP과 같은 기존 VLM들은 modality gap이라는 한계를 가지고 있다.

I0T 논문에서는 modality gap을 최소화하여 image-text alignment를 더욱 정밀하게 평가할 수 있는 새로운 방법인 I0T framework를 제안하였습니다.