[RL/Policy Gradient] Actor-Critic

引入基线$V(s)$降低方差。

TD误差为：

$$\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$$

更新为：

$$\theta\leftarrow \theta+\alpha \delta_t\nabla_\theta \log \pi_\theta(a_t|s_t)$$

其思想在于：使用Actor更新策略，使用Critic估值引导。