流匹配与扩散模型-02：流匹配

概率路径

概率路径与条件概率路径

流匹配 Flow Matching 的起点是 概率路径 Probability Paths。概率路径是随时间变化的分布序列 ${(p_t)}_{0 \le t \le 1}$ ，用于把简单先验分布连接到真实数据分布。

实际训练中无法直接观测 $p_{data}$ ，也无法直接构造 $p_{init}$ 到 $p_{data}$ 的全局路径。

可行做法是对每个样本 $z \sim p_{data}$ 构造从噪声到该样本的 条件概率路径 Conditional Probability Path $p_t(x|z)$ ，并满足：

$t=0$ 时为初始噪声分布，通常设为 $p_0(\cdot|z) = p_{init} = \mathcal{N}(0, I_d)$ 。
$t=1$ 时塌缩到数据点 $z$ ，即 $p_1(\cdot|z) = \delta_z$ ，其中 $\delta_z$ 是以 $z$ 为中心的 Dirac delta 分布。

这样即可定义从噪声到样本的条件演化路径。

边缘概率路径

给定条件路径 $p_t(x |z)$ 后，可通过边缘化得到 边缘概率路径 Marginal Probability Path $p_t(x)$ ：

$p_t(x) = \int p_t(x|z) p_{data}(z) dz$

边缘分布是所有条件分布的加权平均，权重由 $p_{data}(z)$ 给出。学习大量条件路径即可间接学习整体分布的演化。

由于条件路径满足边界条件，边缘路径也满足 $p_0 = p_{init}$ 且 $p_1 = p_{data}$ 。因此，只要找到驱动粒子沿 $p_t$ 演化的机制，就能从噪声生成数据。

高斯条件概率路径

常用的中间路径是高斯条件路径：

$p_t(x|z) = \mathcal{N}(x; \alpha_t z, \beta_t^2 I_d)$

其中 $\alpha_t$ 和 $\beta_t$ 是噪声调度函数，满足 $\alpha_0 = 0, \beta_0 = 1$ 和 $\alpha_1 = 1, \beta_1 = 0$ 。该路径通过线性变换和噪声缩放，使分布从标准高斯逐渐收敛到 $z$ 。常见调度如下：

路径类型	$\alpha_t$	$\beta_t$	几何特征
最优传输路径	$t$	$1-t$	严格直线演化，速度恒定
方差保持路径	$\sqrt{1-\sigma_t^2}$	$\sigma_t$	曲线演化，沿球面移动
方差爆炸路径	1	$\sigma(t)$	均值不变，仅方差扩张

调整 $\alpha_t,\beta_t$ 可得到不同几何路径。最优传输路径对应线性插值，轨迹直接、速度形式简单。

从条件路径采样可写为：

$z \sim p_{data} \quad \epsilon \sim p_{init} = \mathcal{N}(0, I_d) \implies x=\alpha_tz+\beta_t\epsilon \sim p_t$

向量场

条件向量场

概率路径给出分布如何变化；向量场给出粒子在该路径上的速度。

对每个数据点 $z$ ，定义 条件向量场 Conditional Vector Field：

$X_0 \sim p_{init} \quad \frac{d}{dt} X_t = u_t^{target}(X_t|z) \implies X_t \sim p_t(\cdot | z) \quad (0 \le t \le 1)$

其中 $u_t^{target}(X_t|z)$ 是目标条件向量场。

$X_0 \sim p_{init}$ 是噪声起点。给定初始点后，ODE 定义的流 $\psi_t(x_0)$ 确定粒子位置。向量场、ODE 和流分别对应速度规则、局部变化和全局轨迹。

连续性方程：向量场改变概率分布的基础是连续性方程，它描述概率质量在向量场下的守恒演化：

$\frac{\partial}{\partial t}p_t(x) + \text{div}(p_t u_t)(x) = 0$

其中 $\text{div}(p_t u_t)$ 是概率流散度， $\partial_t p_t(x)$ 是密度变化率。若向量场满足该方程，则概率质量只发生连续搬运，不凭空产生或消失。

对高斯条件路径 $p_t(x|z) = \mathcal{N}(x; \alpha_t z, \beta_t^2 I_d)$ ，可用流图 $\psi_t(x_0|z) = \alpha_t z + \beta_t x_0$ 求条件向量场：

$\frac{d}{dt} \psi_t(x_0|z) = \dot{\alpha}_t z + \dot{\beta}_t x_0 = u_t^{target}(\psi_t(x_0|z) | z)$

将 $x_0$ 替换为 $(x - \alpha_t z) / \beta_t$ ，得到闭式解：

$u_t^{target}(x|z) = (\dot{\alpha}_t - \frac{\dot{\beta}_t}{\beta_t} \alpha_t) z + \frac{\dot{\beta}_t}{\beta_t} x$

该速度由数据点 $z$ 相关项和尺度变化项组成。对 CondOT 路径（ $\alpha_t=t, \beta_t=1-t$ ），可简化为 $u_t(x|z) = z - \epsilon$ ，其中 $\epsilon$ 是初始噪声。

边缘向量场

条件向量场可由条件路径直接构造。对所有可能的 $z$ 做后验加权平均，即得到边缘向量场：

$u_t^{target}(x) = \int u_t^{target}(x|z) \frac{p_t(x|z) p_{data}(z)}{p_t(x)} dz$

权重 $\frac{p_t(x|z) p_{data}(z)}{p_t(x)}$ 是后验概率 $p_t(z|x)$ 。因此，位置 $x$ 的边缘速度等于所有条件速度的后验期望：

$u_t^{target}(x) = \mathbb{E}_{z \sim p_{data}(\cdot|x)} [u_t^{target}(x|z)]$

直观上， $u_t^{target}(x|z)$ 表示“若终点是 $z$ ，当前位置应如何移动”， $p_t(z|x)$ 表示当前位置最终对应各数据点的概率。二者加权积分得到当前位置的平均运动方向。

流匹配损失

定义概率路径和向量场后，目标是学习边缘向量场，即总体分布的演化速度。

理想的 流匹配损失 FM Loss 要求神经网络向量场 $v_\theta(x, t)$ 逼近真实边缘向量场 $u_t^{target}(x)$ ：

$\mathcal{L}_{FM}(\theta) = \mathbb{E}_{t \sim \text{Unif}, x \sim p_t(x)} [\|v_\theta(x, t) - u_t^{target}(x)\|^2]$

但 $u_t^{target}(x)$ 依赖未知的 $p_{data}$ ，不能直接计算。因此使用可计算的 条件流匹配损失 CFM Loss：

$\mathcal{L}_{CFM}(\theta) = \mathbb{E}_{t, z \sim p_{data}, x \sim p_t(x|z)} [\|v_\theta(x, t) - u_t^{target}(x|z)\|^2]$

其中 $u_t^{target}(x|z)$ 和 $p_t(x|z)$ 可直接计算。可以证明 FM 与 CFM 对参数 $\theta$ 的梯度等价：

$\nabla_\theta \mathcal{L}_{FM}(\theta) = \nabla_\theta \mathcal{L}_{CFM}(\theta)$

因此，训练时匹配条件速度即可得到正确的边缘向量场。

FM/CFM 等价性证明

展开 FM 损失：

$\mathcal{L}_{FM}(\theta) = \mathbb{E}_{t, x}$

其中第三项 $\|u_t^{target}\|^2$ 不含 $\theta$ ，优化时可视为常数。

处理交叉项：利用边缘化公式 $u_t^{target}(x) = \int u_t^{target}(x|z) \frac{p_t(x|z) p_{data}(z)}{p_t(x)} dz$ 。

$\mathbb{E}_{x \sim p_t} = \int p_t(x) v_\theta(x, t)^T \left( \int u_t^{target}(x|z) \frac{p_t(x|z) p_{data}(z)}{p_t(x)} dz \right) dx$

$\dots = \int \int v_\theta(x, t)^T u_t^{target}(x|z) p_t(x|z) p_{data}(z) dx dz$

这等价于 $\mathbb{E}_{z \sim p_{data}, x \sim p_t(x|z)}$ 。

合并回归目标：同理可证明第一项 $\|v_\theta\|^2$ 的期望一致。因此两个损失关于 $\theta$ 的一阶导数一致。

确定损失后，训练流程如下：