马尔可夫决策过程#
$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$
$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$
DPO(Directed Preference Optimization)是一种不用训练奖励模型的对齐方法,用来让模型直接学习人类偏好,让模型更倾向于输出人类更喜欢的答案。
引入基线$V(s)$降低方差。
减少过估计偏差
Off Policy,学习最优$Q$
On Policy,遵循当前策略更新: