[RL/Policy Optimization] PPO

符号定义#

定义单步的伪目标：

$$L^{CLIP}(\theta)=\mathbb{E}[\min(r_t(\theta)\hat A_t,clip(r_t(\theta),1-\epsilon,1+\epsilon)\hat A_t)]$$

式中，

$$r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{old}(a_t|s_t)}$$

总体策略是最大化$\mathbb{E}_t[L^{CLIP}(\theta)]$

通常实际训练将最小化下面的loss，即

$$L(\theta)=-E_t[L_t^{CLIP}(\theta)]+c_1 E_t[(V_\theta(s_t)-R_t)^2]-c_2 E_t[H(\pi_\theta(\cdot|s_t))]$$

常用Generalized Advantage Estimation来估计$A_t$：

$$\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$$

$$A_t=\sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l}$$

返回，即target of value通常为：

$$R_t=A_t+V(s_t)$$

或直接使用n-step return。必做标准化。

用当前策略$\pi_{\theta_{old}}$与环境交互，收集一批轨迹/步，譬如T步或N traj
计算每个timestep的$\log \pi_{\theta_{old}}(a|s)$，奖励$r$、$V(s)$、GAE advantage $A_t$以及返回 $R_t$
将这批数据随机打乱，分为minibatches
对每个minibatch重复多次epoch：用$\theta$重新计算新的log-prob、ratio $r_t$，计算上面的loss并做梯度下降
更新 $\theta_{old}\leftarrow \theta$，开始收集下一轮数据