🧭 Motivation

본 연구는 다음 두 주요 논문으로부터 출발합니다:

**RTO (Reinforced Token Optimization)**는 선호 응답과 비선호 응답 간의 token-level logit margin을 기반으로 학습합니다.
- Token-level MDP를 전제로 하며, 각 token이 응답 선호에 얼마나 기여했는지를 미세하게 평가할 수 있어, 부분 정답이 있는 경우에도 효과적인 학습이 가능하다는 장점이 있습니다.
**GRPO (Group Relative Preference Optimization)**는 동일한 prompt에서 생성된 응답들 간의 group-level reward normalization을 통해 학습의 안정성과 일반화 성능을 높입니다.
- 이는 response-level MDP에 기반하여 응답 단위로 비교하고 학습 신호를 정규화하는 방식입니다.

이러한 각각의 접근 방식은 강력한 효과를 보이지만, 서로 다른 MDP 구조를 기반으로 하기 때문에 직접 결합이 어렵다는 한계가 있습니다. 이에 착안하여, 다음과 같은 질문을 던졌습니다:

RTO의 미세한 token-level 학습 신호와 GRPO의 안정적인 그룹 정규화 전략을 결합할 수는 없을까?

즉, 응답 수준에서 정규화를 수행하던 GRPO의 아이디어를 token-level 보상에 적용한다면, 전통적인 응답 단위의 preference optimization을 넘어, 토큰 수준에서의 상대적 선호 학습이 가능할 것이라 기대했습니다.

❓ Research Question (연구 질문)

이러한 배경을 바탕으로 본 연구는 다음과 같은 질문들을 다룹니다:

Token-level logit margin 기반 보상을 동일한 prompt 하의 응답 그룹 내에서 정규화할 경우, 단일 응답 전체에 보상을 부여하는 방식보다 더 정밀한 preference 학습이 가능한가?
제안하는 구조, 즉 **GNPO (Group-Normalized Preference Optimization)**는 다음과 같은 효과를 가져올 수 있는가?
- (a) 보상 분산 감소 및 안정화
- (b) 부분 정답에 대한 효과적인 학습
- (c) gradient 방향 정렬 개선 및 generalization 향상
기존 기법들의 한계를 극복할 수 있는가?
- RTO의 전역 보상 없이 학습하기 어려운 구조
- GRPO의 응답 수준에서만 정규화를 수행해 토큰 기여도 학습이 어려운 한계