현재 preference alignment 학습에는 두 가지 강력한 패러다임이 존재합니다:
| 방식 | 주요 수단 | 장점 | 한계 |
|---|---|---|---|
| GRPO | Reward Model + Group Normalization | 응답 간 preference 반영 및 안정적인 학습 | 응답 전체를 하나의 단위로 간주 → 토큰 기여 불분명 |
| RTO | Token-level Logit Margin (No Reward Model) | 세밀한 학습 신호 제공 | reward-free setting에 한정됨, global preference 반영 어려움 |
이 두 방식은 **alignment의 정밀도(token-level)**와 안정성(group-level) 사이에 trade-off가 있으며, 실제 reasoning task에서는 다음과 같은 한계가 있음:
“Learning to Insert [PAUSE] Tokens for Better Reasoning” 모델의 log-likelihood 분포를 기반으로 모델이 어려워 하는 불확실한 위치를 감지하고, 이 위치에 dummy token을 삽입해 loss를 증폭시킴으로써 성능을 향상시켰습니다.
이때 사용된 토큰의 불확실도는 Reward를 분산하는 기준으로 활용될 수 있지 않을까?
Prompt x:
→ Completion A: y1 y2 y3 y4 y5 → Reward Model score: 0.82
↑ ↑
High token difficulty (from log-likelihood)
→ Uniform GRPO: 0.82 for entire sequence → 모든 토큰에 동일 weight
→ Soft-GNPO: 분산된 token reward (e.g. r3 = 0.25, r5 = 0.22, others = 0.05~0.1)
GRPO는 각 response마다 하나의 score만 부여 GNPO는reward model의 score를 토큰에 나눠주고 각 token이 얼마나 어려운지(log-likelihood 기반)에 따라 정규화된 weight로 학습을 유도한다.