Motivation


Background: Preference Optimization의 두 흐름

현재 preference alignment 학습에는 두 가지 강력한 패러다임이 존재합니다:

방식 주요 수단 장점 한계
GRPO Reward Model + Group Normalization 응답 간 preference 반영 및 안정적인 학습 응답 전체를 하나의 단위로 간주 → 토큰 기여 불분명
RTO Token-level Logit Margin (No Reward Model) 세밀한 학습 신호 제공 reward-free setting에 한정됨, global preference 반영 어려움

이 두 방식은 **alignment의 정밀도(token-level)**와 안정성(group-level) 사이에 trade-off가 있으며, 실제 reasoning task에서는 다음과 같은 한계가 있음:

DIT의 log-likelihood 기반 위치 추정

“Learning to Insert [PAUSE] Tokens for Better Reasoning” 모델의 log-likelihood 분포를 기반으로 모델이 어려워 하는 불확실한 위치를 감지하고, 이 위치에 dummy token을 삽입해 loss를 증폭시킴으로써 성능을 향상시켰습니다.

이때 사용된 토큰의 불확실도는 Reward를 분산하는 기준으로 활용될 수 있지 않을까?

제안 방향

Scatch

Prompt x:
→ Completion A: y1  y2  y3  y4  y5     →  Reward Model score: 0.82
                        ↑        ↑
         High token difficulty (from log-likelihood)

→ Uniform GRPO: 0.82 for entire sequence → 모든 토큰에 동일 weight

→ Soft-GNPO: 분산된 token reward (e.g. r3 = 0.25, r5 = 0.22, others = 0.05~0.1)

GRPO는 각 response마다 하나의 score만 부여 GNPO는reward model의 score를 토큰에 나눠주고 각 token이 얼마나 어려운지(log-likelihood 기반)에 따라 정규화된 weight로 학습을 유도한다.