Building Blocks

简介#

Adam是一种基于自适应学习率的梯度下降法，结合了：

若给定一条Lipschitz曲线$\mu:[0,1]\rightarrow \mathcal{W}_p(\Omega)$，将满足以下条件的任意向量场$v:[0,1]\times \Omega\rightarrow \mathbb{R}^d$定义为向量场：

$\mathbb{R}^d$表示数据空间，其中数据点$x=(x^1,\cdots,x^d)\in\mathbb{R}^d$
概率密度路径$p:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}_{\ge 0}$是一个时变概率密度函数，且$\int p_t(x)dx=1$
时变向量场$v:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}^d$，可用以构造微分同胚映射，该映射称为流
流$\phi:[0,1]\times \mathbb{R}^d\rightarrow \mathbb{R}^d$，通过常微分方程定义:$$\frac{d}{dt}\phi_t(x)=v_t(\phi_t(x)) \tag{1}$$

Chen et al.(2018)提出使用神经网络对向量场$v_t$进行建模，即重参数化为$v_t(x;\theta)$，其中$\theta\in \mathbb{R}^p$是可学习的参数。连续归一化流模型CNFs即得到了流$\phi_t$的深度参数化模型。

指一个映射把测度从一个空间“推”到另一个空间。