[RL/Perference-based] DPO
DPO(Directed Preference Optimization)是一种不用训练奖励模型的对齐方法,用来让模型直接学习人类偏好,让模型更倾向于输出人类更喜欢的答案。
符号定义#
假设有成对样本$(x,y^+,y^-)$,其中,
- $y^+$ 是人类更喜欢的回答
- $y^-$ 是被拒绝的回答
DPO(Directed Preference Optimization)是一种不用训练奖励模型的对齐方法,用来让模型直接学习人类偏好,让模型更倾向于输出人类更喜欢的答案。
假设有成对样本$(x,y^+,y^-)$,其中,