[RL/Perference-based] DPO

DPO(Directed Preference Optimization)是一种不用训练奖励模型的对齐方法，用来让模型直接学习人类偏好，让模型更倾向于输出人类更喜欢的答案。

符号定义#

假设有成对样本$(x,y^+,y^-)$，其中，