Value Flows
Paper Reading:
@misc{dong2025value,
title={Value Flows},
author={Perry Dong and Chongyi Zheng and Chelsea Finn and Dorsa Sadigh and Benjamin Eysenbach},
year={2025},
eprint={2510.07650},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2510.07650},
}符号定义#
MDP相关#
| 符号 | 定义 |
|---|---|
| $S$ | 状态空间(state space) |
| $A$ | 动作空间(action space),满足 $\overline{A} \subset \mathbb{R}^{d}$($d$ 为动作维度) |
| $\rho \in \Delta(S)$ | 初始状态分布,$\Delta(X)$ 表示空间 $X$ 上所有概率分布的集合 |
| $r: S \times A \to [r_{min}, r_{max}]$ | 有界奖励函数,$r_{min}$、$r_{max}$ 分别为奖励的最小、最大值 |
| $\gamma \in [0,1)$ | 折扣因子(discount factor) |
| $p: S \times A \to \Delta(S)$ | 状态转移分布,$p(s' | s, a)$ 表示从状态 $s$ 执行动作 $a$ 转移到 $s'$ 的概率 |
| $h$ | MDP 中的时间步(time step) |
| $X$ | 随机变量,如状态 $S$、动作 $A$、回报 $Z$ |
| $x$ | 随机变量的取值,如状态 $s$、动作 $a$、回报 $z$ |
| $F_{X}$ | 随机变量 $X$ 的累积分布函数(CDF) |
| $p_{X}$ | 随机变量 $X$ 的概率密度函数(PDF) |
| $D = {(s, a, r, s')}$ | 离线数据集,包含由行为策略收集的状态-动作-奖励-下一状态转移样本 |
Distributional RL相关#
| 符号 | 定义 |
|---|---|
| $\pi: S \to \Delta(A)$ | 策略,表示在状态 $s$ 选择动作 $a$ 的概率 |
| $Z^{\pi}$ | 策略 $\pi$ 下的(折扣)回报随机变量,$Z^{\pi} = \sum_{h=0}^{\infty} \gamma^h r(S_h, A_h)$,取值范围 $[z_{min}, z_{max}]$,其中 $z_{min} = \frac{r_{max}}{1-\gamma}$,$z_{max} = \frac{r_{min}}{1-\gamma}$ |
| $Z^{\pi}(s, a)$ | 条件回报随机变量,表示从状态 $s$ 执行动作 $a$ 后遵循策略 $\pi$ 的回报 |
| $Q^{\pi}(s, a)$ | 策略 $\pi$ 的 Q 函数,即条件回报的期望 |
| $\mathcal{T}^{\pi}$ | 分布型贝尔曼算子(distributional Bellman operator) |
| $S', A'$ | 下一状态、下一动作的随机变量$ |
| $p_{\mathcal{T}^{\pi} Z}(z | s,a)$ | 算子 $\mathcal{T}^{\pi}$ 作用后回报的 PDF |
Flow Matching相关#
| 符号 | 定义 |
|---|---|
| $t$ | 流时间步,范围 $[0,1]$ |
| $\epsilon \sim \mathcal{N}(0, I)$ | 标准高斯噪声,$I$ 为单位矩阵,$\epsilon_0$ 为另一独立高斯噪声 |
| $v: [0,1] \times \mathbb{R}^d \to \mathbb{R}^d$ | 时间依赖的向量场,在 Value Flows 中扩展为 $v: \mathbb{R} \times [0,1] \times S \times A \to \mathbb{R}$(结合回报、状态、动作) |
| $\phi: [0,1] \times \mathbb{R}^d \to \mathbb{R}^d$ | 微分同胚流(diffeomorphic flow),由向量场生成 |
| $p: [0,1] \times \mathbb{R}^d \to \Delta(\mathbb{R}^d)$ | 向量场生成的时间依赖概率密度路径 |
| $x^t$ | 流时间 $t$ 时的样本,如 $x^t = \phi(\epsilon | t)$,在回报建模中为 $z^t$ |
方法阐述#
输入:回报向量场$v_\theta$,目标回报向量场$v_\bar\theta$,BC流策略$\pi_\omega$,单步流策略$\pi_\eta$以及数据集$D$
对于每次迭代:
采样一批转移状态和动作${(s,a,s',r)}\sim \mathcal{D}$,以及一批噪声$\epsilon\sim N(0,1)$
使用Euler方法以及VJP方法计算置信权重$w(s,a,\epsilon)$: $$w(s,a,r)=\sigma\left(-\tau/\left|\frac{\partial\phi}{\partial \epsilon}(\epsilon|1,s,a)\right|\right)$$
通过最小化$\mathcal{L}_{\text{Value Flow}}(\theta)$来训练回报向量场: $$$$