Adam Optimizer
简介#
Adam是一种基于自适应学习率的梯度下降法,结合了:
- Momentun:利用过去梯度的指数平均
- RMSProp:利用过去梯度平方的指数平均来调节步长
Adam利用以下更新规则进行参数更新$\theta$:
$$m_t=\beta_1 m_{t-1}+(1-\beta_1) g_t$$
$$v_t=\beta_2 v_{t-1}+(1-\beta_2) g_t^2$$
$$\hat m_t=\frac{m_t}{1-\beta_1^t}$$
$$\hat v_t=\frac{v_t}{1-\beta_2^t}$$
$$\theta_t=\theta_{t-1}-\alpha\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}$$