[RL/Basic]MDP

强化学习(Reinforcement Learning)Building Blocks

马尔可夫决策过程#

$$J=\mathbb [\sum_{t=0}^{\infty} \gamma^t r_t]$$

状态值函数为：

$$V^\pi(s)=\mathbb{E}_\pi[r+\gamma V^\pi(s')]$$

动作值函数为：

$$Q^\pi(s,a)=\mathbb{E}_\pi[r+\gamma Q^\pi(s',a')]$$