[RL/Policy Gradient] Actor-Critic
引入基线$V(s)$降低方差。
TD误差为:
$$\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$$
更新为:
$$\theta\leftarrow \theta+\alpha \delta_t\nabla_\theta \log \pi_\theta(a_t|s_t)$$
其思想在于:使用Actor更新策略,使用Critic估值引导。
引入基线$V(s)$降低方差。
TD误差为:
$$\delta_t=r_t+\gamma V(s_{t+1})-V(s_t)$$
更新为:
$$\theta\leftarrow \theta+\alpha \delta_t\nabla_\theta \log \pi_\theta(a_t|s_t)$$
其思想在于:使用Actor更新策略,使用Critic估值引导。