Value Flows

Paper Reading:

@misc{dong2025value,
  title={Value Flows}, 
  author={Perry Dong and Chongyi Zheng and Chelsea Finn and Dorsa Sadigh and Benjamin Eysenbach},
  year={2025},
  eprint={2510.07650},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url={https://arxiv.org/abs/2510.07650},
}

符号定义#

MDP相关#

符号定义
$S$状态空间(state space)
$A$动作空间(action space),满足 $\overline{A} \subset \mathbb{R}^{d}$($d$ 为动作维度)
$\rho \in \Delta(S)$初始状态分布,$\Delta(X)$ 表示空间 $X$ 上所有概率分布的集合
$r: S \times A \to [r_{min}, r_{max}]$有界奖励函数,$r_{min}$、$r_{max}$ 分别为奖励的最小、最大值
$\gamma \in [0,1)$折扣因子(discount factor)
$p: S \times A \to \Delta(S)$状态转移分布,$p(s' | s, a)$ 表示从状态 $s$ 执行动作 $a$ 转移到 $s'$ 的概率
$h$MDP 中的时间步(time step)
$X$随机变量,如状态 $S$、动作 $A$、回报 $Z$
$x$随机变量的取值,如状态 $s$、动作 $a$、回报 $z$
$F_{X}$随机变量 $X$ 的累积分布函数(CDF)
$p_{X}$随机变量 $X$ 的概率密度函数(PDF)
$D = {(s, a, r, s')}$离线数据集,包含由行为策略收集的状态-动作-奖励-下一状态转移样本

Distributional RL相关#

符号定义
$\pi: S \to \Delta(A)$策略,表示在状态 $s$ 选择动作 $a$ 的概率
$Z^{\pi}$策略 $\pi$ 下的(折扣)回报随机变量,$Z^{\pi} = \sum_{h=0}^{\infty} \gamma^h r(S_h, A_h)$,取值范围 $[z_{min}, z_{max}]$,其中 $z_{min} = \frac{r_{max}}{1-\gamma}$,$z_{max} = \frac{r_{min}}{1-\gamma}$
$Z^{\pi}(s, a)$条件回报随机变量,表示从状态 $s$ 执行动作 $a$ 后遵循策略 $\pi$ 的回报
$Q^{\pi}(s, a)$策略 $\pi$ 的 Q 函数,即条件回报的期望
$\mathcal{T}^{\pi}$分布型贝尔曼算子(distributional Bellman operator)
$S', A'$下一状态、下一动作的随机变量$
$p_{\mathcal{T}^{\pi} Z}(z | s,a)$算子 $\mathcal{T}^{\pi}$ 作用后回报的 PDF

Flow Matching相关#

符号定义
$t$流时间步,范围 $[0,1]$
$\epsilon \sim \mathcal{N}(0, I)$标准高斯噪声,$I$ 为单位矩阵,$\epsilon_0$ 为另一独立高斯噪声
$v: [0,1] \times \mathbb{R}^d \to \mathbb{R}^d$时间依赖的向量场,在 Value Flows 中扩展为 $v: \mathbb{R} \times [0,1] \times S \times A \to \mathbb{R}$(结合回报、状态、动作)
$\phi: [0,1] \times \mathbb{R}^d \to \mathbb{R}^d$微分同胚流(diffeomorphic flow),由向量场生成
$p: [0,1] \times \mathbb{R}^d \to \Delta(\mathbb{R}^d)$向量场生成的时间依赖概率密度路径
$x^t$流时间 $t$ 时的样本,如 $x^t = \phi(\epsilon | t)$,在回报建模中为 $z^t$

方法阐述#

输入:回报向量场$v_\theta$,目标回报向量场$v_\bar\theta$,BC流策略$\pi_\omega$,单步流策略$\pi_\eta$以及数据集$D$

对于每次迭代:

采样一批转移状态和动作${(s,a,s',r)}\sim \mathcal{D}$,以及一批噪声$\epsilon\sim N(0,1)$

使用Euler方法以及VJP方法计算置信权重$w(s,a,\epsilon)$: $$w(s,a,r)=\sigma\left(-\tau/\left|\frac{\partial\phi}{\partial \epsilon}(\epsilon|1,s,a)\right|\right)$$

通过最小化$\mathcal{L}_{\text{Value Flow}}(\theta)$来训练回报向量场: $$$$

理论证明#

1. 流导数$\frac{\partial\phi}{\partial \epsilon}(\epsilon|1,s,a)$能够被Euler以及VJP高效求解(原文Algo2.,Appendix B.2.)#

代码阅读#

参考#