How does pseudo reward contribute | Notion

Instruct GPT의 문제점

→ 해결방식을 위한 pseudo reward

→ 다시 해결을 위한 논문

관전포인트

RLHF은 너무 주관적
데이터셋이 좋은 것을 어떻게 표현할 수 있는가?
한국어 데이터셋 유효?

InstructGPT

helpful → human evaluation
honest →
harmless → toxicity dataset

step2에서 reward model을

preference dataset

instructGPT data의 단점