[RL/Value-based]Double Q-Learning
减少过估计偏差
$$Q_1(s,a)\leftarrow Q_1(s,a)+\alpha[r+\gamma Q_2(s',\arg\max_{a'} Q_1(s',a'))-Q_1(s,a)]$$
思想:分离动作选择与动作评价。
减少过估计偏差
$$Q_1(s,a)\leftarrow Q_1(s,a)+\alpha[r+\gamma Q_2(s',\arg\max_{a'} Q_1(s',a'))-Q_1(s,a)]$$
思想:分离动作选择与动作评价。