流匹配与扩散模型-06：变分自编码器

高维数据生成的局限

生成模型需要学习真实数据分布 $p_{data}$ 。以 $1024 \times 1024$ RGB 图像为例， $x \in \mathbb{R}^d$ ，其中 $d = 3 \times 1024 \times 1024 \approx 3 \times 10^6$ 。若直接在像素空间训练扩散模型，网络需要在每个时间步处理百万级维度，计算和显存开销很高；视频还会因时间维度进一步放大状态空间。

现代生成架构引入 潜在空间 Latent Space，其依据是流形假设：高维数据虽然处于大维度像素空间，但实际集中在低内在维度流形附近。

因此可先用非线性压缩将数据投影到低维潜在空间，再在该空间中训练生成模型。自编码器，尤其是 变分自编码器 Variational Autoencoders，常用于构建这种潜在空间。

标准自编码器

确定性特征映射

标准自编码器由两个确定性神经网络组成：编码器负责压缩，解码器负责重构。

编码器 Encoder 定义为 $\mu_{\phi}: \mathbb{R}^d \rightarrow \mathbb{R}^k$ ，将输入 $x \in \mathbb{R}^d$ 压缩为潜在向量 $z \in \mathbb{R}^k$ ，通常 $k \ll d$ 。

解码器 Decoder 定义为 $\mu_{\theta}: \mathbb{R}^k \rightarrow \mathbb{R}^d$ ，将潜在向量还原为重构数据 $\hat{x}$ 。

其中 $\phi,\theta$ 分别是编码器和解码器参数。训练目标是最小化输入和重构结果之间的均方误差：

$\mathcal{L}_{Recon}(\phi, \theta) = \mathbb{E}_{x \sim p_{data}}[||\mu_{\theta}(\mu_{\phi}(x)) - x||^2]$

离散隐空间的局限

标准自编码器可实现压缩和重构，但直接用于生成存在潜在空间结构问题。

原因是其损失只约束重构误差，没有显式约束潜在空间 $\mathbb{R}^k$ 的分布形状。编码结果可能离散、断裂，缺少连续结构。

潜在向量集合 $\{z_1, z_2, \dots, z_N\}$ 可能形成孤立点簇，点簇之间是未训练区域。随机采样或插值容易落入这些区域，解码器对流形外输入缺乏可靠泛化。

确定性自编码器只保证训练样本附近可解码，不能保证任意潜在点都对应合理数据。

变分自编码器

VAE 将编码器和解码器改为概率模型，使潜在空间更平滑、连续，并适合下游生成。

概率编码器与解码器

VAE 中，编码器是后验条件分布 $q_{\phi}(z|x)$ ，解码器是条件生成分布 $p_{\theta}(x|z)$ 。常用假设是二者为对角高斯：

$q_{\phi}(z|x) = \mathcal{N}(z; \mu_{\phi}(x), \text{diag}(\sigma_{\phi}^2(x)))$

$p_{\theta}(x|z) = \mathcal{N}(x; \mu_{\theta}(z), \sigma_{\theta}^2(z)I_d)$

编码器不再输出单点，而是输出均值 $\mu_{\phi}(x)$ 和方差 $\sigma_{\phi}^2(x)$ （实践中常输出 $\log \sigma_{\phi}^2(x)$ ）。因此，每个输入对应潜在空间中的高斯概率云。

解码器输出重构分布的均值 $\mu_{\theta}(z)$ 和方差 $\sigma_{\theta}^2(z)$ 。自编码过程变为随机采样：

先采样潜在变量 $z \sim q_{\phi}(\cdot|x)$ ，再采样重构数据 $x \sim p_{\theta}(\cdot|z)$ 。

变分重构损失

引入概率机制后，重构目标改为最大化给定潜变量时真实数据的期望对数似然；取负值得到 VAE 重构损失：

$\mathcal{L}_{VAE-Recon}(\phi, \theta) = - \mathbb{E}_{x \sim p_{data}(x), z \sim q_{\phi}(\cdot|x)}[\log p_{\theta}(x|z)]$

该损失要求解码器对从 $q_{\phi}(\cdot|x)$ 中采样的潜变量都能高概率重构原始输入。

代入各向同性高斯密度：

$\mathcal{N}(x; \mu, \sigma^2 I) = (2\pi\sigma^2)^{-\frac{d}{2}} \exp\left(-\frac{||x-\mu||_2^2}{2\sigma^2}\right)$

取对数并忽略与优化无关的常数，得到：

$\mathcal{L}_{VAE-Recon}(\phi, \theta) = \mathbb{E}_{x \sim p_{data}(x), z \sim q_{\phi}(z|x)}\left[ \frac{1}{2\sigma_{\theta}^2(z)} ||x - \mu_{\theta}(z)||^2 + \frac{d}{2} \log \sigma_{\theta}^2(z) \right] + \text{const}$

第一项是由方差缩放的 MSE，第二项惩罚预测方差。实际训练中常将解码方差固定为常数 $\sigma_{\theta}^2(z) = \sigma^2$ ，避免学习高维方差带来的不稳定。

此时方差惩罚项成为常数，重构损失退化为：

$\mathcal{L}_{VAE-Recon}(\phi, \theta) = \mathbb{E}_{x \sim p_{data}(x), z \sim q_{\phi}(z|x)}\left[ \frac{1}{2\sigma^2} ||x - \mu_{\theta}(z)||^2 \right] + \text{const}$

固定方差后，VAE 重构损失与 MSE 等价，差异在于潜变量 $z$ 来自概率采样而非确定性映射。

Kullback-Leibler 散度约束

仅使用重构损失时，编码器可令 $\sigma_{\phi}^2 \to 0$ ，退化为确定性自编码器，并重新产生潜在空间断裂。因此需要对编码器输出分布加入先验约束。

高斯先验分布

引入预设 先验分布 Prior Distribution $p_{prior}(z)$ ，作为潜在空间的目标分布。常用先验为标准各向同性高斯：

$p_{prior}(z) = \mathcal{N}(0, I_k)$

该先验易采样，且各维独立，有利于获得结构更规则的潜在表示。

KL 散度损失

先验确定后，需要使 $q_{\phi}(z|x)$ 接近 $\mathcal{N}(0,I_k)$ 。使用 KL 散度 衡量分布差异：

$D_{KL}(q(x) | | p(x)) = \int q(x) \log \frac{q(x)}{p(x)} dx = \mathbb{E}_{X \sim q} \left[ \log \frac{q(X)}{p(X)} \right]$

KL 散度满足非负性 $D_{KL}(q(x) || p(x)) \ge 0$ ，且仅当 $q=p$ 时取 0。VAE 将其作为先验损失：

$\mathcal{L}_{VAE-Prior}(\phi) = \mathbb{E}_{x \sim p_{data}(x)}$

当后验和先验均为对角高斯时，KL 散度有闭式解。设 $q(x) = \mathcal{N}(x; \mu_q, \text{diag}(\sigma_q^2))$ ， $p(x) = \mathcal{N}(x; \mu_p, \text{diag}(\sigma_p^2))$ ，其对数密度为：

$\log q(x) = -\frac{1}{2}\log(2\pi\sigma_q^2) - \frac{1}{2\sigma_q^2}||x - \mu_q||^2$

$\log p(x) = -\frac{1}{2}\log(2\pi\sigma_p^2) - \frac{1}{2\sigma_p^2}||x - \mu_p||^2$

代入 $D_{KL}(q||p) = \mathbb{E}_{x \sim q}[\log q(x) - \log p(x)]$ ：

$D_{KL}(q||p) = \frac{1}{2}\log\frac{\sigma_p^2}{\sigma_q^2} + \frac{1}{2\sigma_p^2}\mathbb{E}_q[||x-\mu_p||^2] - \frac{1}{2\sigma_q^2}\mathbb{E}_q[||x-\mu_q||^2]$

利用 $\mathbb{E}_q[||x-\mu_q||^2] = \sigma_q^2$ 与 $\mathbb{E}_q[||x-\mu_p||^2] = \sigma_q^2 + ||\mu_q - \mu_p||^2$ ，得到：

$D_{KL}(q||p) = \frac{1}{2} \left( \mathcal{K}\left(\frac{\sigma_q^2}{\sigma_p^2}\right) + \frac{||\mu_q - \mu_p||^2}{\sigma_p^2} \right)$

其中函数被定义为 $\mathcal{K}(\alpha) = \sum_{i=1}^k (\alpha_i - \log \alpha_i - 1)$ 。

标准 VAE 中 $\mu_p=0,\sigma_p^2=1$ ，因此先验损失为：

$\mathcal{L}_{VAE-Prior}(\phi) = \mathbb{E}_{x \sim p_{data}(x)} \left[ \frac{1}{2} \mathcal{K}(\sigma_{\phi}^2(x)) + \frac{1}{2} ||\mu_{\phi}(x)||^2 \right]$

该损失包含两类约束：

二次范数惩罚项 $\frac{1}{2} ||\mu_{\phi}(x)||^2$ ：约束编码均值靠近原点。
函数项 $\frac{1}{2} \mathcal{K}(\sigma_{\phi}^2(x))$ ：约束方差接近 1，避免方差塌缩为 0，并促使潜在概率云适度重叠。

$\beta$ -VAE 训练目标函数

将重构损失与先验损失相加，并引入 $\beta \ge 0$ 控制权重，得到 $\beta$ -VAE 目标：

$\mathcal{L}_{VAE}(\phi, \theta) = \mathcal{L}_{VAE-Recon}(\phi, \theta) + \beta \mathcal{L}_{VAE-Prior}(\phi)$

$= \mathbb{E}_{x \sim p_{data}(x), z \sim q_{\phi}(z|x)} \left[ \frac{1}{2\sigma_{\theta}^2(z)}||x - \mu_{\theta}(z)||^2 + \frac{d}{2}\log \sigma_{\theta}^2(z) + \frac{\beta}{2}\mathcal{K}(\sigma_{\phi}^2(x)) + \frac{\beta}{2}||\mu_{\phi}(x)||^2 \right]$

VAE 损失项组件	数学公式表达	核心驱动功能
均方重构误差	$\frac{1}{2\sigma_{\theta}^2(z)}\|x - \mu_{\theta}(z)\|^2$	约束重构图像的生成质量
解码不确定性	$\frac{d}{2}\log \sigma_{\theta}^2(z)$	控制重构约束强度。
方差收敛正则化	$\frac{\beta}{2}\mathcal{K}(\sigma_{\phi}^2(x))$	防止方差塌缩，保持潜在空间连续性。
均值引力正则化	$\frac{\beta}{2}\|\mu_{\phi}(x)\|^2$	约束编码均值接近 0。

重参数化

VAE 损失涉及 $z \sim q_{\phi}(z|x)$ 的随机采样。采样操作本身不可导，会阻断梯度传回编码器参数 $\phi$ 。重参数化技巧用于解决该问题。

重参数化将随机性转移到独立噪声源。对 $z \sim \mathcal{N}(\mu_{\phi}(x), \sigma_{\phi}^2(x) I_k)$ ，引入 $\epsilon \sim \mathcal{N}(0, I_k)$ ，可写为：

$z = \mu_{\phi}(x) + \sigma_{\phi}(x) \odot \epsilon$

其中 $\odot$ 表示逐元素乘法。

这样计算图变为：

噪声 $\epsilon$ 与参数 $\phi$ 独立。
$z$ 由 $\mu_{\phi}(x)$ 、 $\sigma_{\phi}(x)$ 和 $\epsilon$ 经可导运算得到。
梯度可通过加法和乘法传回 $\mu_{\phi}$ 与 $\sigma_{\phi}$ 。

重参数化后，期望从依赖参数的后验分布转为对独立噪声 $\epsilon$ 的期望：

$\mathcal{L}_{VAE}(\phi, \theta) = \mathbb{E}_{x \sim p_{data}(x), \epsilon \sim \mathcal{N}(0,I_k)}\left[ \frac{1}{2\sigma_{\theta}^2(z)} ||x - \mu_{\theta}(\mu_{\phi}(x) + \sigma_{\phi}(x)\epsilon)||^2 + \frac{d}{2}\log \sigma_{\theta}^2(z) + \frac{\beta}{2}\mathcal{K}(\sigma_{\phi}^2(x)) + \frac{\beta}{2}||\mu_{\phi}(x)||^2 \right]$

固定解码方差为常数 $\sigma^2$ 后，可实现的损失为：

$\mathcal{L}_{VAE}(\phi, \theta) = \mathbb{E}_{x \sim p_{data}(x), \epsilon \sim \mathcal{N}(0,I_k)}\left[ \frac{1}{2\sigma^2} ||x - \mu_{\theta}(\mu_{\phi}(x) + \sigma_{\phi}(x)\epsilon)||^2 + \frac{\beta}{2}\mathcal{K}(\sigma_{\phi}^2(x)) + \frac{\beta}{2}||\mu_{\phi}(x)||^2 \right]$

重参数化也出现在 Gumbel-Softmax 和扩散模型采样式 $x_t = \sqrt{\alpha_t}x_0 + \sqrt{1-\alpha_t}\epsilon$ 中。

下表为标准 $\beta$ -VAE 的单次迭代流程：

训练步骤	操作名称	具体的数学算子与张量流转逻辑
步骤 1	前向信息编码	输入 mini-batch $\{x_i\}_{i=1}^B$ ，输出 $\mu_i \leftarrow \mu_{\phi}(x_i)$ 和 $\log \sigma_i^2 \leftarrow \log \sigma_{\phi}^2(x_i)$ 。
步骤 2	外部噪声采样	采样独立噪声 $\epsilon_i \sim \mathcal{N}(0, I_k)$ 。
步骤 3	重参数化运算	计算 $\sigma_i = \exp(\frac{1}{2}\log \sigma_i^2)$ ，再得 $z_i \leftarrow \mu_i + \sigma_i \odot \epsilon_i$ 。
步骤 4	前向空间解码	输入 $z_i$ 到解码器，输出 $\hat{x}_i \leftarrow \mu_{\theta}(z_i)$ 。
步骤 5	损失函数聚合	计算重构损失 $\mathcal{L}_{recon}$ 与 KL 损失 $\mathcal{L}_{KL}$ ，聚合为 $\mathcal{L} \leftarrow \mathcal{L}_{recon} + \beta\mathcal{L}_{KL}$ 。
步骤 6	梯度回传更新	反向传播并更新 $\phi,\theta$ 。

工程稳定性补充：

KL 预热：训练初期令 $\beta$ 较小，先保证重构，再逐步增强先验约束。
为了提高训练稳定性，一些实现将解码器的方差输出固定为常数方差 $\sigma$ ，而不是由神经网络学习的方差 $\sigma_\theta$ 。这种设置下重建项约束 $\frac{1}{2\sigma_{\theta}^2(z)}\|x - \mu_{\theta}(z)\|^2$ 和均方误差 $\|x-\mu_\theta(z)\|^2$ 成固定比例。
感知损失：用预训练网络的特征空间损失缓解 MSE 带来的过度平滑。
GAN 对抗损失：增强高频纹理和边缘质量。

ELBO 与联合分布

全局 KL 散度极小化

VAE 同时包含 $X \to Z$ 与 $Z \to X$ 两条通道，对应两个关于数据 $x$ 与潜变量 $z$ 的联合分布：

由编码器诱导的联合分布：数据来自真实分布，再由编码器映射到潜层，定义为 $q_{\phi}(x, z) = p_{data}(x) q_{\phi}(z|x)$ 。
由解码器诱导的联合分布：潜变量来自先验分布，再由解码器映射回数据空间，定义为 $p_{\theta}(x, z) = p_{\theta}(x|z) p_{prior}(z)$ 。

训练 VAE 的目标是选择参数 $\phi$ 和 $\theta$ ，使编码路径与生成路径诱导的联合分布尽量一致，即最小化它们之间的全局 KL 散度：

$D_{KL}(q_{\phi}(x, z) | | p_{\theta}(x, z)) = \mathbb{E}_{q_{\phi}}\left[ \log\left(\frac{p_{data}(x)q_{\phi}(z|x)}{p_{\theta}(x|z)p_{prior}(z)}\right) \right]$

展开对数项，并利用期望的线性性，可得：

$= \mathbb{E}_{x \sim p_{data}}[\log p_{data}(x)] + \mathbb{E}_{x \sim p_{data}} - \mathbb{E}_{x \sim p_{data}, z \sim q_{\phi}}[\log p_{\theta}(x|z)]$

其中 $\mathbb{E}[\log p_{data}(x)]$ 只由数据分布决定，与网络参数 $\phi,\theta$ 无关，可视为常量。因此：

$D_{KL}(q_{\phi}(x, z) | | p_{\theta}(x, z)) = \text{Const} + \mathcal{L}_{VAE}(\phi, \theta)$

因此，最小化 $\mathcal{L}_{VAE}$ 等价于最小化编码器联合分布与解码器联合分布之间的全局散度。重构项与 KL 正则项并非经验拼接，而对应联合分布对齐。

证据下界

生成模型通常希望最大化真实样本的边缘对数似然 $\log p_{\theta}(x)$ 。

但 $p_{\theta}(x) = \int p_{\theta}(x|z)p_{prior}(z)dz$ 是高维连续积分，通常不可解析，也难以直接数值计算。

变分推断引入可训练分布 $q_{\phi}(z|x)$ 作为真实后验 $p_{\theta}(z|x)$ 的近似。由贝叶斯公式 $p_{\theta}(z|x) = \frac{p_{\theta}(x|z)p_{prior}(z)}{p_{\theta}(x)}$ 并整理散度项，可得：

$\mathbb{E}_{z \sim q_{\phi}(z|x)}\left[ \log\left(\frac{p_{\theta}(x|z)p_{prior}(z)}{q_{\phi}(z|x)}\right) \right] + D_{KL}(q_{\phi}(z|x) | | p_{\theta}(z|x)) = \log p_{\theta}(x)$

由于 $D_{KL}(q_{\phi}(z|x) || p_{\theta}(z|x)) \ge 0$ ，可得到边缘对数似然的下界：

$\log p_{\theta}(x) \ge \mathbb{E}_{z \sim q_{\phi}(z|x)}\left[ \log\left(\frac{p_{\theta}(x|z)p_{prior}(z)}{q_{\phi}(z|x)}\right) \right] \equiv \text{ELBO}(x; \phi, \theta)$

该下界称为 证据下界 Evidence Lower Bound。展开 ELBO 内部的对数项后，得到 $\mathbb{E}_{q_{\phi}}[\log p_{\theta}(x|z)] - D_{KL}(q_{\phi}(z|x) || p_{prior}(z))$ ，即负的变分自编码器损失 $-\mathcal{L}_{VAE}$ 。

因此，最小化 $\mathcal{L}_{VAE}$ 等价于最大化不可直接计算的边缘似然 $\log p_{\theta}(x)$ 的下界 ELBO。

“变分”的含义：真实后验 $p_{\theta}(z|x)$ 的分母包含不可解积分 $\log p_{\theta}(x)$ ，无法直接计算。因此引入可控、可训练的分布族 $q_{\phi}(\cdot|x)$ 近似真实后验，并通过优化缩小二者差距。

扩散模型中的 VAE

训练好的 VAE 可以独立生成：推理时采样 $z \sim p_{prior}$ 并输入解码器即可得到样本。现代潜在扩散仍在 VAE 的潜在空间中建模，原因在于 VAE 单独作为生成器存在摊销差距，而扩散模型更适合学习复杂潜在分布。

VAE 生成任务的瓶颈

当 VAE 独立承担完整生成任务时，生成质量受摊销差距限制。由 ELBO 分解有：

$\log p_{\theta}(x) = \text{ELBO} + D_{KL}\left(q_{\phi}(z \mid x) \Vert p_{\theta}(z \mid x)\right)$

边缘对数似然与 ELBO 的差距由变分近似 $q_{\phi}(z|x)$ 和真实后验 $p_{\theta}(z|x)$ 的差异决定。

从聚合潜在分布视角，可由信息处理不等式得到：

$D_{KL}\left(q_{\phi}(x, z) \Vert p_{\theta}(x, z)\right) \ge D_{KL}\left(q_{\phi}(z) \Vert p_{prior}(z)\right)$

该式说明，只要联合分布没有完全对齐，聚合潜在分布 $q_{\phi}(z) = \int q_{\phi}(z|x)p_{data}(x)dx$ 与标准高斯先验 $p_{prior}(z)$ 之间仍可能存在差异。

推理时若直接从 $p_{prior}(z)$ 采样并输入解码器，解码器会接收与训练阶段 $q_{\phi}(z)$ 不一致的输入，产生分布外偏移。该失配与 MSE 重构损失的均值化倾向共同导致单独 VAE 生成图像常见的边缘模糊和高频细节缺失，即“VAE 特征性模糊”。

建模潜在分布

潜在扩散模型 Latent Diffusion Models 将 VAE 定位为感知压缩器，将扩散模型定位为潜在分布建模器。

在该范式中，VAE 主要负责把高维像素空间压缩为低维潜在空间，不再要求潜在流形完全匹配标准高斯。语义结构生成与跨模态对齐由潜在空间内的扩散模型完成。扩散模型可通过连续扩散的分数匹配或流匹配拟合向量场，学习从标准高斯到聚合潜在分布 $q_{\phi}(z)$ 的反向过程。

这种分工带来两点优势：

扩散模型避免直接在高维像素空间建模，将计算集中在低维潜在空间中的语义生成。
VAE 聚焦压缩与重构质量，负责把扩散模型生成的 $z$ 解码为图像。实践上，基于 SDEs 和 ODEs 的扩散过程在匹配复杂非平稳分布时通常比单次前馈 VAE 更灵活，因此潜在扩散成为高质量生成模型的常用架构。

架构策略范式对比	所处运算空间	核心优势	主要瓶颈	在当前生态中的演进定位
全尺寸像素级扩散	原始数据域 $\mathbb{R}^{H \times W \times 3}$	无解码器介入，不存在压缩损失，逼真度上限高。	推理时间与显存占用随分辨率快速增长，难以扩展到千万像素或长视频。	主要用于理论验证或低分辨率图像生成试验（如早期 DDPM）。
单一 VAE 前馈生成	低维潜在流形 $\mathbb{R}^k$	采样速度快，一次编码与一次解码即可出图。	受摊销差距限制，图像易出现特征性模糊，难以灵活接入复杂外部条件（如文本）。	更适合实时编解码、异常检测等对速度要求高的任务。
组合式潜在扩散	极低维语义流形 $\mathbb{R}^k$	在高分辨率生成与算力限制之间取得较好平衡，适合多模态高质量对齐。	生成上限受 VAE 第一阶段预训练压缩损失限制，可能存在细节重构误差。	当前高质量生成模型的主流架构之一，如 Stable Diffusion 3、Meta Movie Gen。