Instruct GPT의 문제점
→ 해결방식을 위한 pseudo reward
→ 다시 해결을 위한 논문
helpful → human evaluation
honest →
harmless → toxicity dataset
step2에서 reward model을
preference dataset
instructGPT data의 단점