流匹配与扩散模型-04：引导生成

Guidance

前面讨论的是无条件生成，即从 $p_{data}(z)$ 采样。实际应用通常需要按 prompt 或其他信息生成特定样本，这类额外信息称为 Guidance。

Vanilla Guidance

最直接的方法是在训练和推理阶段将条件变量 $y$ 输入神经网络，学习条件向量场 $u_t^\theta(\cdot|y)$ 。

定义

基础引导式扩散/流模型由条件神经网络向量场和时间扩散系数 $\sigma_t$ 定义：

神经网络定义： $u^\theta: \mathbb{R}^d \times \mathcal{Y} \times [0, 1] \rightarrow \mathbb{R}^d, \quad (x,y,t) \mapsto u_t^\theta(x|y)$ 。输入为带噪状态 $x$ 、条件 $y$ 和时间 $t$ ，输出 $d$ 维去噪方向。
固定扩散系数： $\sigma_t: [0, 1] \rightarrow [0, +∞) \quad t \mapsto \sigma_t$

采样步骤

初始化：从先验分布采样 $X_0 \sim p_{init}$ ，通常为 $\mathcal{N}(0, I_d)$ 。
微分方程模拟：从 $t=0$ 积分到 $t=1$ ，模拟 $dX_t = u_t^\theta(X_t|y) dt + \sigma_t dW_t$ 。其中 $\sigma_t=0$ 时退化为 ODE 流模型。
优化目标：终点满足 $X_1 \sim p_{data}(\cdot|y)$ 。

流匹配目标

训练条件网络 $u_t^\theta(x|y)$ 时，真实数据来自联合分布 $p_{data}(z,y)$ ，目标是学习 $p_{data}(x|y)$ 。

对应的 Guided Conditional Flow Matching Objective 为：

$\mathcal{L}_{CFM}^{target}(\theta) = \mathbb{E}_{(z,y)\sim p_{data}(z,y), t\sim Unif, x\sim p_t(\cdot|z)} \|u_t^\theta(x|y) - u_t^{target}(x|z)\|^2$

各项含义：

联合分布采样 $(z,y)\sim p_{data}(z,y)$ ：采样真实样本及其条件。
时间采样 $t\sim Unif$ ：随机采样时间步。
状态采样 $x\sim p_t(\cdot|z)$ ：按条件路径生成中间带噪状态。
回归目标：在给定 $x,y$ 时预测 $u_t^{target}(x|z)$ 。条件 $y$ 不改变 $p_t(\cdot|z)$ ，只作为神经网络上下文输入。

Vanilla Guidance 的局限

理论上，充分数据和模型容量可使 Vanilla Guidance 学到 $p_{data}(\cdot|y)$ 。实际中，生成结果常与提示词契合不足。

主要原因：

高维条件信号稀释：图像空间维度高，文本条件信号容易被通用视觉特征淹没。
数据质量缺陷与错配：现实世界中的图文对存在大量的噪声、描述不全或错误匹配。这种弱监督信号导致模型无法建立 $y$ 与特定视觉特征之间的强对应关系。
决策边界模糊：高噪声阶段不同条件的分布重叠，基础模型缺少显式放大条件差异的机制。

因此需要在采样阶段放大条件信号，即 Classifier Guidance 和 Classifier-Free Guidance。

Classifier Guidance

Classifier Guidance 使用额外分类器在采样阶段修正生成方向。下面以高斯概率路径说明其分数函数推导。

向量场与分数函数的等价转换

在条件高斯路径 $p_t(\cdot|z) = \mathcal{N}(\alpha_t z, \beta_t^2 I_d)$ 下，向量场和分数函数存在线性关系：

$u_t^{target}(x|y) = a_t \nabla \log p_t(x|y) + b_t x$

系数为：

比例系数 $a_t$ ：定义为 $a_t = \left(\beta_t^2 \frac{\dot{\alpha}_t}{\alpha_t} - \dot{\beta}_t \beta_t\right)$ 。
偏移系数 $b_t$ ：定义为 $b_t = \frac{\dot{\alpha}_t}{\alpha_t}$ 。
导数： $\dot{\alpha}_t$ 和 $\dot{\beta}_t$ 是噪声调度函数对时间 $t$ 的一阶导数。

该关系说明：给定 $t,x$ 后，条件向量场由条件分数 $\nabla \log p_t(x|y)$ 决定。

解耦条件分数

根据贝叶斯公式，条件分数可分解为：

$p_t(x|y) = \frac{p_t(x) p_t(y|x)}{p_t(y)}$

对两边取对数并对 $x$ 求梯度：

$\nabla \log p_t(x|y) = \nabla \log \left( \frac{p_t(x) p_t(y|x)}{p_t(y)} \right) = \nabla \log p_t(x) + \nabla \log p_t(y|x) - \nabla \log p_t(y)$

因为 $p_t(y)$ 与 $x$ 无关，最后一项为 0：

$\nabla \log p_t(x|y) = \nabla \log p_t(x) + \nabla \log p_t(y|x)$

条件分数被分解为：

无条件分数 $\nabla \log p_t(x)$ ：保证样本落在真实数据分布上。
似然梯度 $\nabla \log p_t(y|x)$ ：由分类器给出，推动样本更符合条件 $y$ 。

构建与放大分类器引导向量场

代回向量场线性关系：

$\begin{aligned} u_t^{target}(x|y) &= b_t x + a_t (\nabla \log p_t(x) + \nabla \log p_t(y|x)) \\ &= \underbrace{\left( b_t x + a_t \nabla \log p_t(x) \right)}_{\text{无条件向量场 } u_t^{target}(x)} + a_t \nabla \log p_t(y|x) \\ &= u_t^{target}(x) + a_t \nabla \log p_t(y|x) \end{aligned}$

条件向量场等于无条件向量场加上分类器似然梯度项。

为增强条件对齐，引入 Guidance Scale $w$ ，将分类器梯度放大为 $w a_t \nabla \log p_t(y|x)$ ：

$\tilde{u}_t(x|y) = u_t^{target}(x) + w a_t \nabla \log p_t(y|x) \quad \text{(Classifier Guidance)}$

增大 $w$ 可增强条件对齐。

分类器引导的局限

分类器引导的工程问题：

额外模型依赖：需要独立分类器估算 $p_t(y|x)$ ，增加复杂度和显存压力。
噪声分类困难：采样早期 $x_t$ 接近高斯噪声，普通分类器不能直接使用，需要训练噪声感知分类器。
开放文本条件困难：自由文本条件难以用传统分类器稳定建模。

因此引入无分类器引导（CFG）。

Classifier-Free Guidance

CFG 在不依赖外部分类器的情况下，实现与分类器引导类似的条件放大效果。

消除额外分类器的依赖

使用前面的贝叶斯分解：

$\nabla \log p_t(x|y) = \nabla \log p_t(x) + \nabla \log p_t(y|x)$

条件分数可由条件生成模型预测，无条件分数可由无条件生成模型预测。因此分类器梯度可写为二者差值：

$\nabla \log p_t(y|x) = \nabla \log p_t(x|y) - \nabla \log p_t(x)$

条件模型与无条件模型的差值可看作隐式分类器梯度。

代回带放大因子 $w$ 的引导公式：

$\begin{aligned} \tilde{u}_t(x|y) &= u_t^{target}(x) + w a_t \nabla \log p_t(y|x) \\ &= u_t^{target}(x) + w a_t \Big( \underbrace{\nabla \log p_t(x|y) - \nabla \log p_t(x)}_{\text{隐式分类器梯度}} \Big) \end{aligned}$

利用 $a_t \nabla \log p_t(x) = u_t^{target}(x) - b_t x$ 及条件版本，化简为：

$\begin{aligned} \tilde{u}_t(x|y) &= u_t^{target}(x) - w (b_t x + a_t \nabla \log p_t(x)) + w (b_t x + a_t \nabla \log p_t(x|y)) \\ &= u_t^{target}(x) - w u_t^{target}(x) + w u_t^{target}(x|y) \\ &= (1 - w) u_t^{target}(x) + w u_t^{target}(x|y) \end{aligned}$

得到 CFG 核心公式：

$\tilde{u}_t(x|y) = (1 - w) u_t^{target}(x) + w u_t^{target}(x|y)$

用 $\emptyset$ 表示无条件输入：

$\tilde{u}_t(x|y) = (1 - w) u_t^{target}(x|\emptyset) + w u_t^{target}(x|y)$

因此可以用同一个模型同时处理有条件和无条件输入，无需额外分类器。

为何 CFG 表现优秀？

CFG 是条件输出相对无条件输出的线性外推。

增量形式为：

$\tilde{u}_t(x|y) = u_t^{target}(x|\emptyset) + w \cdot \Big( u_t^{target}(x|y) - u_t^{target}(x|\emptyset) \Big)$

可分解为：

基座方向 $u_t^{target}(x|\emptyset)$ ：无条件生成方向。
增量方向： $u_t^{target}(x|y)-u_t^{target}(x|\emptyset)$ ，表示条件 $y$ 带来的额外语义方向。
外推倍增： $w>1$ 时放大条件增量，提高提示词对齐度。

从对比主成分分析角度看，CFG 可理解为：均值平移、放大条件域主成分，并抑制无条件分布中的通用特征。

CFG 的训练

CFG 需要同时得到条件和无条件输出。工程上通过联合训练让同一个网络支持两类输入。

训练策略：

引入空标签：扩展一个表示无条件的特殊标志 $\emptyset$ 。
条件 Dropout：训练时以概率 $\eta$ 将真实条件 $y$ 替换为 $\emptyset$ 。

训练目标为：

$\mathcal{L}_{CFM}^{CFG}(\theta) = \mathbb{E}_{\blacksquare} \| u_t^\theta(x|y) - u_t^{target}(x|z) \|^2$

其中 $\mathbb{E}_{\blacksquare}$ 表示如下混合采样：

采样真实数据和标签对 $(z,y) \sim p_{data}(z,y)$ 。
采样时间步 $t \sim Unif[0, 1]$ 。
采样对应的中间噪声状态 $x \sim p_t(\cdot|z)$ 。
按固定概率丢弃标签，即 $y \leftarrow \emptyset$ with prob. $\eta$ 。

训练流程：

推理时，每个时间步分别输入 $y$ 和 $\emptyset$ 前向计算，再用 CFG 公式组合输出得到 $\tilde{u}_t(x|y)$ 。

引导尺度的选择

引导尺度 $w$ 控制提示词保真度与样本多样性的权衡。增大 $w$ 近似于从被 $p_t(c|x)^w$ 修正后的分布中采样。

分布锐化： $w>1$ 会提高高似然区域权重，压低低概率区域。
远离决策边界：条件梯度被放大后，采样轨迹更倾向于进入明确的条件簇。

但 $w$ 不能无限增大，过强外推会导致：

多样性塌缩：分布收缩到少数模式，不同随机种子生成结果趋同。
伪影与过度饱和：线性外推可能使状态超出合理数据范围，产生颜色溢出和结构伪影。

引导尺度 w 区间	概率空间与景观效应	样本多样性	提示词保真度	视觉特征与实际表现
$w \le 1.0$	分布平滑，覆盖范围大	高	低	细节柔和，但主体和条件对齐较弱。
$w \in [2.0, 7.0]$	分布适度锐化，远离模糊边界	中等	高	主题突出，结构清晰，是常用区间。
$w \ge 10.0$	分布过度收缩	极低	极高但僵化	容易过饱和、失真并出现伪影。