Adam Optimizer

简介#

Adam是一种基于自适应学习率的梯度下降法,结合了:

  • Momentun:利用过去梯度的指数平均
  • RMSProp:利用过去梯度平方的指数平均来调节步长

Adam利用以下更新规则进行参数更新$\theta$:

$$m_t=\beta_1 m_{t-1}+(1-\beta_1) g_t$$

$$v_t=\beta_2 v_{t-1}+(1-\beta_2) g_t^2$$

$$\hat m_t=\frac{m_t}{1-\beta_1^t}$$

$$\hat v_t=\frac{v_t}{1-\beta_2^t}$$

$$\theta_t=\theta_{t-1}-\alpha\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}$$