가제: Bridging Modality and Preference Gaps in Vision-Language Models: Methods and Benchmarks for Human-Aligned Multimodal Learning
1. Introduction
목적
- 최근 Vision-Language Models (ex, CLIP, BLIP, GPT-4o 등)은 다양한 멀티모달 태스크에서 성능을 보이지만, 사람의 선호나 특수 사용자의 요구를 제대로 반영하지 못함
- 특히, 시각 장애인과 같은 특수 사용자에게 실질적으로 도움되는 정렬 기준은 부족
핵심 문제
- Modality Gap
- CLIP을 포함한 reward model의 overfitting/unstability
- alignment in reward scoring
논문 contribution 요약
- (1) 모달리티 간 간극 완화 방법 제안
- (2) 안정적인 리워드 모델 학습 기법 제안
- (3) VLM 보상 모델 구축 및 사용자 선호 정렬 성능 분석
- (4) BLV 사용자 중심의 정렬 데이터셋 구축 및 벤치마크 제안
2. 관련 연구 (Background)
- CLIP/BLIP 기반 멀티모달 모델 구조
- RLHF에서 사용되는 보상 모델 학습 방식
- 시각장애인을 위한 접근성 기술 및 AI 적용 사례
- 기존의 자동 정렬 평가 메트릭 (CLIPScore, BLIPScore 등)의 한계