๐งญ Motivation
๋ณธ ์ฐ๊ตฌ๋ ๋ค์ ๋ ์ฃผ์ ๋
ผ๋ฌธ์ผ๋ก๋ถํฐ ์ถ๋ฐํฉ๋๋ค:
- **RTO (Reinforced Token Optimization)**๋ ์ ํธ ์๋ต๊ณผ ๋น์ ํธ ์๋ต ๊ฐ์ token-level logit margin์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํฉ๋๋ค.
- Token-level MDP๋ฅผ ์ ์ ๋ก ํ๋ฉฐ, ๊ฐ token์ด ์๋ต ์ ํธ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง๋ฅผ ๋ฏธ์ธํ๊ฒ ํ๊ฐํ ์ ์์ด, ๋ถ๋ถ ์ ๋ต์ด ์๋ ๊ฒฝ์ฐ์๋ ํจ๊ณผ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
- **GRPO (Group Relative Preference Optimization)**๋ ๋์ผํ prompt์์ ์์ฑ๋ ์๋ต๋ค ๊ฐ์ group-level reward normalization์ ํตํด ํ์ต์ ์์ ์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ์ ๋์
๋๋ค.
- ์ด๋ response-level MDP์ ๊ธฐ๋ฐํ์ฌ ์๋ต ๋จ์๋ก ๋น๊ตํ๊ณ ํ์ต ์ ํธ๋ฅผ ์ ๊ทํํ๋ ๋ฐฉ์์
๋๋ค.
์ด๋ฌํ ๊ฐ๊ฐ์ ์ ๊ทผ ๋ฐฉ์์ ๊ฐ๋ ฅํ ํจ๊ณผ๋ฅผ ๋ณด์ด์ง๋ง, ์๋ก ๋ค๋ฅธ MDP ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์ง์ ๊ฒฐํฉ์ด ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด์ ์ฐฉ์ํ์ฌ, ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ์ ๋์ก์ต๋๋ค:
RTO์ ๋ฏธ์ธํ token-level ํ์ต ์ ํธ์ GRPO์ ์์ ์ ์ธ ๊ทธ๋ฃน ์ ๊ทํ ์ ๋ต์ ๊ฒฐํฉํ ์๋ ์์๊น?
์ฆ, ์๋ต ์์ค์์ ์ ๊ทํ๋ฅผ ์ํํ๋ GRPO์ ์์ด๋์ด๋ฅผ token-level ๋ณด์์ ์ ์ฉํ๋ค๋ฉด, ์ ํต์ ์ธ ์๋ต ๋จ์์ preference optimization์ ๋์ด, ํ ํฐ ์์ค์์์ ์๋์ ์ ํธ ํ์ต์ด ๊ฐ๋ฅํ ๊ฒ์ด๋ผ ๊ธฐ๋ํ์ต๋๋ค.
โ Research Question (์ฐ๊ตฌ ์ง๋ฌธ)
์ด๋ฌํ ๋ฐฐ๊ฒฝ์ ๋ฐํ์ผ๋ก ๋ณธ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ง๋ฌธ๋ค์ ๋ค๋ฃน๋๋ค:
- Token-level logit margin ๊ธฐ๋ฐ ๋ณด์์ ๋์ผํ prompt ํ์ ์๋ต ๊ทธ๋ฃน ๋ด์์ ์ ๊ทํํ ๊ฒฝ์ฐ, ๋จ์ผ ์๋ต ์ ์ฒด์ ๋ณด์์ ๋ถ์ฌํ๋ ๋ฐฉ์๋ณด๋ค ๋ ์ ๋ฐํ preference ํ์ต์ด ๊ฐ๋ฅํ๊ฐ?
- ์ ์ํ๋ ๊ตฌ์กฐ, ์ฆ **GNPO (Group-Normalized Preference Optimization)**๋ ๋ค์๊ณผ ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์ฌ ์ ์๋๊ฐ?
- (a) ๋ณด์ ๋ถ์ฐ ๊ฐ์ ๋ฐ ์์ ํ
- (b) ๋ถ๋ถ ์ ๋ต์ ๋ํ ํจ๊ณผ์ ์ธ ํ์ต
- (c) gradient ๋ฐฉํฅ ์ ๋ ฌ ๊ฐ์ ๋ฐ generalization ํฅ์
- ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋๊ฐ?
- RTO์ ์ ์ญ ๋ณด์ ์์ด ํ์ตํ๊ธฐ ์ด๋ ค์ด ๊ตฌ์กฐ
- GRPO์ ์๋ต ์์ค์์๋ง ์ ๊ทํ๋ฅผ ์ํํด ํ ํฐ ๊ธฐ์ฌ๋ ํ์ต์ด ์ด๋ ค์ด ํ๊ณ