Motivation

Background: Preference Optimization의 두 흐름

현재 preference alignment 학습에는 두 가지 강력한 패러다임이 존재합니다:

방식	주요 수단	장점	한계
GRPO	Reward Model + Group Normalization	응답 간 preference 반영 및 안정적인 학습	응답 전체를 하나의 단위로 간주 → 토큰 기여 불분명
RTO	Token-level Logit Margin (No Reward Model)	세밀한 학습 신호 제공	reward-free setting에 한정됨, global preference 반영 어려움

이 두 방식은 **alignment의 정밀도(token-level)**와 안정성(group-level) 사이에 trade-off가 있으며, 실제 reasoning task에서는 다음과 같은 한계가 있음:

모든 응답이 완전히 맞거나 틀리지 않음 → 부분 정답 학습이 불가능
어떤 토큰이 “좋은 응답”을 만든 원인인지 모델이 알 수 없음

DIT의 log-likelihood 기반 위치 추정

“Learning to Insert [PAUSE] Tokens for Better Reasoning” 모델의 log-likelihood 분포를 기반으로 모델이 어려워 하는 불확실한 위치를 감지하고, 이 위치에 dummy token을 삽입해 loss를 증폭시킴으로써 성능을 향상시켰습니다.

이때 사용된 토큰의 불확실도는 Reward를 분산하는 기준으로 활용될 수 있지 않을까?

제안 방향

Reward Model이 응답 전체에 부여한 scalar score R을 유지하면서도
이를 모델이 어려워한 토큰에 soft하게 분산하여
기존 GRPO 구조 위에 token-level credit assignment가 가능한 구조를 만들고자 합니다

Scatch

Prompt x:
→ Completion A: y1  y2  y3  y4  y5     →  Reward Model score: 0.82
                        ↑        ↑
         High token difficulty (from log-likelihood)

→ Uniform GRPO: 0.82 for entire sequence → 모든 토큰에 동일 weight

→ Soft-GNPO: 분산된 token reward (e.g. r3 = 0.25, r5 = 0.22, others = 0.05~0.1)

GRPO는 각 response마다 하나의 score만 부여 GNPO는reward model의 score를 토큰에 나눠주고 각 token이 얼마나 어려운지(log-likelihood 기반)에 따라 정규화된 weight로 학습을 유도한다.