[RL/Value-based]Double Q-Learning

减少过估计偏差

$$Q_1(s,a)\leftarrow Q_1(s,a)+\alpha[r+\gamma Q_2(s',\arg\max_{a'} Q_1(s',a'))-Q_1(s,a)]$$

思想：分离动作选择与动作评价。