[RL/Policy Gradient] Actor-Critic

引入基线$V(s)$降低方差。

TD误差为:

$$\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$$

更新为:

$$\theta\leftarrow \theta+\alpha \delta_t\nabla_\theta \log \pi_\theta(a_t|s_t)$$

其思想在于:使用Actor更新策略,使用Critic估值引导。