[RL/Basic]MDP
马尔可夫决策过程#
$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$
状态值函数为:
$$V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$$
动作值函数为:
$$Q^\pi(s,a)=\mathbb{E}_\pi[r+\gamma Q^\pi(s',a')]$$
$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$
状态值函数为:
$$V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$$
动作值函数为:
$$Q^\pi(s,a)=\mathbb{E}_\pi[r+\gamma Q^\pi(s',a')]$$