Proposal | Notion

가제: Bridging Modality and Preference Gaps in Vision-Language Models: Methods and Benchmarks for Human-Aligned Multimodal Learning

1. Introduction

목적

최근 Vision-Language Models (ex, CLIP, BLIP, GPT-4o 등)은 다양한 멀티모달 태스크에서 성능을 보이지만, 사람의 선호나 특수 사용자의 요구를 제대로 반영하지 못함
특히, 시각 장애인과 같은 특수 사용자에게 실질적으로 도움되는 정렬 기준은 부족

핵심 문제

Modality Gap
CLIP을 포함한 reward model의 overfitting/unstability
- alignment in reward scoring

논문 contribution 요약

(1) 모달리티 간 간극 완화 방법 제안
(2) 안정적인 리워드 모델 학습 기법 제안
(3) VLM 보상 모델 구축 및 사용자 선호 정렬 성능 분석
(4) BLV 사용자 중심의 정렬 데이터셋 구축 및 벤치마크 제안

2. 관련 연구 (Background)

CLIP/BLIP 기반 멀티모달 모델 구조
RLHF에서 사용되는 보상 모델 학습 방식
시각장애인을 위한 접근성 기술 및 AI 적용 사례
기존의 자동 정렬 평가 메트릭 (CLIPScore, BLIPScore 등)의 한계