Adam Optimizer

简介#

Adam是一种基于自适应学习率的梯度下降法，结合了：

Adam利用以下更新规则进行参数更新$\theta$：

$$m_t=\beta_1 m_{t-1}+(1-\beta_1) g_t$$

$$v_t=\beta_2 v_{t-1}+(1-\beta_2) g_t^2$$

$$\hat m_t=\frac{m_t}{1-\beta_1^t}$$

$$\hat v_t=\frac{v_t}{1-\beta_2^t}$$

$$\theta_t=\theta_{t-1}-\alpha\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}$$