[RL/Basic]MDP

马尔可夫决策过程#

$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$

状态值函数为:

$$V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$$

动作值函数为:

$$Q^\pi(s,a)=\mathbb{E}_\pi[r+\gamma Q^\pi(s',a')]$$