Instruct GPT의 문제점

→ 해결방식을 위한 pseudo reward

→ 다시 해결을 위한 논문

관전포인트

  1. RLHF은 너무 주관적
  2. 데이터셋이 좋은 것을 어떻게 표현할 수 있는가?
  3. 한국어 데이터셋 유효?

InstructGPT

  1. helpful → human evaluation

  2. honest →

  3. harmless → toxicity dataset

step2에서 reward model을

preference dataset

instructGPT data의 단점