Adam Optimizer

简介#

Adam是一种基于自适应学习率的梯度下降法,结合了:

Continuity Equation

定义#

若给定一条Lipschitz曲线$\mu:[0,1]\rightarrow \mathcal{W}_p(\Omega)$,将满足以下条件的任意向量场$v:[0,1]\times \Omega\rightarrow \mathbb{R}^d$定义为向量场:

Normalizing Flows

符号定义#

  • $\mathbb{R}^d$表示数据空间,其中数据点$x=(x^1,\cdots,x^d)\in\mathbb{R}^d$
  • 概率密度路径$p:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}_{\ge 0}$是一个时变概率密度函数,且$\int p_t(x)dx=1$
  • 时变向量场$v:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}^d$,可用以构造微分同胚映射,该映射称为流
  • 流$\phi:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}^d$,通过常微分方程定义:$$\frac{d}{dt}\phi_t(x)=v_t(\phi_t(x)) \tag{1}$$

连续归一化流(Continuous Normalizing Flows)定义#

Chen et al.(2018)提出使用神经网络对向量场$v_t$进行建模,即重参数化为$v_t(x;\theta)$,其中$\theta\in \mathbb{R}^p$是可学习的参数。连续归一化流模型CNFs即得到了流$\phi_t$的深度参数化模型。

Push Forward Equations

指一个映射把测度从一个空间“推”到另一个空间。