๐Ÿงญ Motivation


๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์Œ ๋‘ ์ฃผ์š” ๋…ผ๋ฌธ์œผ๋กœ๋ถ€ํ„ฐ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค:


์ด๋Ÿฌํ•œ ๊ฐ๊ฐ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ฐ•๋ ฅํ•œ ํšจ๊ณผ๋ฅผ ๋ณด์ด์ง€๋งŒ, ์„œ๋กœ ๋‹ค๋ฅธ MDP ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ง์ ‘ ๊ฒฐํ•ฉ์ด ์–ด๋ ต๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ์ฐฉ์•ˆํ•˜์—ฌ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์งˆ๋ฌธ์„ ๋˜์กŒ์Šต๋‹ˆ๋‹ค:

RTO์˜ ๋ฏธ์„ธํ•œ token-level ํ•™์Šต ์‹ ํ˜ธ์™€ GRPO์˜ ์•ˆ์ •์ ์ธ ๊ทธ๋ฃน ์ •๊ทœํ™” ์ „๋žต์„ ๊ฒฐํ•ฉํ•  ์ˆ˜๋Š” ์—†์„๊นŒ?

์ฆ‰, ์‘๋‹ต ์ˆ˜์ค€์—์„œ ์ •๊ทœํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋˜ GRPO์˜ ์•„์ด๋””์–ด๋ฅผ token-level ๋ณด์ƒ์— ์ ์šฉํ•œ๋‹ค๋ฉด, ์ „ํ†ต์ ์ธ ์‘๋‹ต ๋‹จ์œ„์˜ preference optimization์„ ๋„˜์–ด, ํ† ํฐ ์ˆ˜์ค€์—์„œ์˜ ์ƒ๋Œ€์  ์„ ํ˜ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•  ๊ฒƒ์ด๋ผ ๊ธฐ๋Œ€ํ–ˆ์Šต๋‹ˆ๋‹ค.


โ“ Research Question (์—ฐ๊ตฌ ์งˆ๋ฌธ)

์ด๋Ÿฌํ•œ ๋ฐฐ๊ฒฝ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ณธ ์—ฐ๊ตฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์งˆ๋ฌธ๋“ค์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค:

  1. Token-level logit margin ๊ธฐ๋ฐ˜ ๋ณด์ƒ์„ ๋™์ผํ•œ prompt ํ•˜์˜ ์‘๋‹ต ๊ทธ๋ฃน ๋‚ด์—์„œ ์ •๊ทœํ™”ํ•  ๊ฒฝ์šฐ, ๋‹จ์ผ ์‘๋‹ต ์ „์ฒด์— ๋ณด์ƒ์„ ๋ถ€์—ฌํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค ๋” ์ •๋ฐ€ํ•œ preference ํ•™์Šต์ด ๊ฐ€๋Šฅํ•œ๊ฐ€?
  2. ์ œ์•ˆํ•˜๋Š” ๊ตฌ์กฐ, ์ฆ‰ **GNPO (Group-Normalized Preference Optimization)**๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋Š”๊ฐ€?
  3. ๊ธฐ์กด ๊ธฐ๋ฒ•๋“ค์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?