高维数据生成的局限
生成模型的核心任务是学习真实世界数据的潜在概率分布 pdata。以视觉生成为例,一张分辨率为 1024×1024 且包含 RGB 三个颜色通道的图像,其在数学上表示为一个高维空间中的向量 x∈Rd,其中维度 d=3×1024×1024≈3×106 。如果在如此庞大的欧几里得空间中直接构建并训练扩散模型,要求神经网络(如大规模的 U-Net 或 Diffusion Transformer)在每一个时间步 t 对数以百万计的像素进行全局去噪预测,这不仅会消耗极其惊人的计算资源和内存,而且会在高频细节(如微小的光影波动、不可察觉的噪点)上浪费绝大部分模型容量 。当数据模态扩展到高帧率视频时,由于时间维度 T 的引入,状态空间的爆炸式增长使得直接在数据空间建模变得完全不可行 。
为了跨越这一维度鸿沟,现代生成架构引入了 潜在空间 Latent Space 的核心概念。这一概念建立在非线性降维领域著名的流形假设之上。该假设指出,尽管现实世界的数据在像素层面上具有极高的绝对维度,但受限于物理规律和语义结构的强约束,这些数据实际上只分布于高维空间中一个极其狭窄的、具有低内在维度的流形上 。
基于流形假设,模型无需在数百万维的像素网格中漫无目的地搜寻概率密度,而是可以通过一种非线性压缩机制,剔除在语义上无关紧要的高频空间冗余,将数据投影到一个维度显著降低的潜在空间中 。在这一技术路线中,自编码器 Autoencoders 尤其是 变分自编码器 Variational Autoencoders 扮演了极为关键的基石角色。通过在预训练的 VAE 潜在空间中建立扩散过程,生成模型实现了感知压缩和语义生成的解耦,从而在计算效率和生成保真度之间取得了最优的平衡 。
标准自编码器的定义和局限
确定性特征映射与重构损失
标准自编码器由两个高度非线性的确定性神经网络函数组成,分别承担数据的降维投影与升维重建任务 。
首先是 编码器 Encoder,其定义为映射 μϕ:Rd→Rk。该函数将高维数据空间中的原始观测输入 x∈Rd 映射(或压缩)到低维潜在空间中的特征表示向量 z∈Rk。在典型的架构配置中,目标维度 k 远远小于输入维度 d。例如,对于上述的高分辨率图像,通过多层卷积下采样,k 的维度可能被大幅压缩为 3×161024×161024,实现了数百倍的空间缩减 。
其次是 解码器 Decoder,其定义为映射 μθ:Rk→Rd。解码器的职责是接收低维潜在向量 z∈Rk,并通过逆向的空间上采样将其映射回原始数据空间,试图输出一个与原始输入 x 高度一致的重建数据 x^ 。

在此框架下,ϕ 和 θ 分别代表编码器和解码器的可学习参数矩阵。标准自编码器的训练目标非常直观,即要求网络在经过信息瓶颈后最大程度地保留原始信息的保真度。因此,其优化目标是最小化原始数据与重建数据之间的均方误差,其 重构损失函数 Reconstruction Loss 严谨地定义为 :
LRecon(ϕ,θ)=Ex∼pdata[∣∣μθ(μϕ(x))−x∣∣2]
确定性隐空间的拓扑断裂与泛化失效
尽管标准自编码器能够通过最小化上述损失函数实现极其出色的数据压缩率和极低的重构误差,但将其直接作为生成模型的前置组件存在着本质的拓扑学缺陷。
导致这一缺陷的根本原因在于:在标准自编码器的端到端训练过程中,除了均方误差构成的重构约束外,没有任何数学机制对潜在空间 Rk 的概率密度分布进行显式的几何正则化或约束 。这导致了所学习到的潜在空间不仅严重缺乏全局结构,而且呈现出高度离散和拓扑断裂的特性。
具体而言,由真实数据流形映射得到的潜在向量集合 {z1,z2,…,zN} 往往会在潜在空间中坍缩为极其狭窄、密集的孤立点簇。而在这些孤立的点簇之间,横亘着广袤的“未定义区域”或“空白空间”。如果试图在这样的无序空间中训练一个诸如扩散模型的生成网络,或者通过随机插值生成新的潜在向量 zgen,绝大概率会采样到那些从未被映射过的空白区域。当解码器 μθ 接收到这些处于流形外的非结构化向量时,其非线性表达能力将导致不可预测的泛化崩溃,最终解码出完全无意义的拓扑噪声或极度扭曲的图像 。
使用确定隐空间的编码器,在训练时会将输入的图像分别投影到隐空间中。但是由于输入的数据是一系列数量有限的离散点,它们在隐空间中也作为一系列离散点存在。在编码时,会输入隐空间各个维度的特征,如果这些特征在隐空间中有对应的点,那么就可以编码出正确的图像。但是如果输入的特征并没有踩在这些离散点上,编码器收到了一个没见过的特征组合,很难产生一个合理的输出。
变分自编码器
为了确保潜在空间具有平滑、连续且易于下游生成的良好性质,变分自编码器通过放宽编码器和解码器必须是确定性函数的刚性限制,将其重构为纯粹的概率模型。这种概率统计学视角的转变,使得 VAE 在压缩数据的同时,被强制学习数据内在的分布规律 。

概率编码器与解码器的分布构造
在 VAE 的数学框架下,编码器被严密地建模为一个给定输入数据后的后验条件概率分布 qϕ(z∣x),而解码器同样被建模为给定潜在特征后的条件概率分布 pθ(x∣z)。在实际的深度学习架构实现中,考虑到计算的可行性与优化的便利性,最常见的理论假设是将这两个分布均设定为具有对角协方差矩阵的多变量高斯分布:
qϕ(z∣x)=N(z;μϕ(x),diag(σϕ2(x)))
pθ(x∣z)=N(x;μθ(z),σθ2(z)Id)
在这个严格的概率设定中,神经网络的角色发生了根本性的改变: 编码器网络不再输出单一的、确定性的降维向量,而是输出一个参数化概率分布的统计矩。具体包括一个均值向量 μϕ(x)∈Rk 和一个方差向量 σϕ2(x)∈R≥0k(出于确保非负性并大幅提高数值稳定性的考量,神经网络实际输出的通常是对数方差 logσϕ2(x))。方差的引入,本质上代表了模型对给定高维输入 x 的潜在表示所持有的“不确定性”估计,这使得输入数据在潜在空间中不再是一个绝对的单点,而是一个具有一定体积的高斯概率云 。

解码器同样输出重构数据分布的均值 μθ(z)∈Rd 以及预测的解码方差 σθ2(z)∈R≥0。因此,整个自编码过程转变为一个连续的随机采样过程:
首先,根据观测数据采样其潜在表征: z∼qϕ(⋅∣x)。
随后,根据潜在表征重构生成数据: x∼pθ(⋅∣z)。

变分重构损失
在引入了全面的概率机制后,必须基于极大似然估计的思想重新定义重构目标。一个符合数理统计直觉的选择是,最大化模型在给定潜在特征下重构出真实数据的期望对数似然。取其负值以构建 最小化负对数似然 问题,我们便得到了 VAE 的变分重构损失 :
LVAE−Recon(ϕ,θ)=−Ex∼pdata(x),z∼qϕ(⋅∣x)[logpθ(x∣z)]
这一损失函数表明:模型不再仅仅进行一次确定性的点对点映射,而是必须全面考量从编码器分布 qϕ(⋅∣x) 中采样出的所有可能的潜在编码,并严苛地要求解码器在接收这些存在随机波动的采样点时,都能以极高的概率还原出原始的输入数据 x。
基于我们对解码器分布 pθ(x∣z) 所作出的各向同性高斯假设,我们可以直接代入 d 维多变量高斯分布的概率密度函数公式 :
N(x;μ,σ2I)=(2πσ2)−2dexp(−2σ2∣∣x−μ∣∣22)
对该密度函数两边同时取自然对数,即计算 logpθ(x∣z),经过代数展开并忽略与优化过程无关的常数项后,负对数似然形式的变分重构损失可以被精确地推导为 :
LVAE−Recon(ϕ,θ)=Ex∼pdata(x),z∼qϕ(z∣x)[2σθ2(z)1∣∣x−μθ(z)∣∣2+2dlogσθ2(z)]+const
该重构损失公式中的两大关键组成部分,可以揭示模型内部精妙的数学博弈:
第一项 2σθ2(z)1∣∣x−μθ(z)∣∣2 在本质上与标准自编码器使用的均方误差别无二致,用于衡量重构数据与真实数据之间的欧氏距离偏差。关键区别在于,现在的 MSE 误差项被解码器的预测方差 σθ2(z) 动态地作为分母进行了缩放。
第二项 2dlogσθ2(z) 则充当了模型预测不确定性的惩罚项。
解码器在此面临着一种内在的优化权衡:如果网络倾向于缩小预测方差 σθ2(z),它表现出对当前重构的高度“自信”,这固然使得对数方差惩罚项 logσθ2(z) 减小,但随之而来的代价是,由于方差作为分母缩小,任何微小的重构欧氏误差 ∣∣x−μθ(z)∣∣2 都会被无限放大。这种精妙的机制自动调节了重构空间精度与网络不确定性之间的平衡。
实践架构中的方差常数化处理: 尽管上述推导在理论上无懈可击,但在模型训练中,要求深度神经网络同时输出解码均值并精准学习高维连续空间中的解码方差,极易导致数值计算的崩溃并陷入退化解。为确保系统稳定性,工程界的标准实践是将解码方差强制固定为一个标量常数 σθ2(z)=σ2 。
在这一工程假设的简化下,方差惩罚项成为常数,上述重构损失公式退化为:
LVAE−Recon(ϕ,θ)=Ex∼pdata(x),z∼qϕ(z∣x)[2σ21∣∣x−μθ(z)∣∣2]+const
由此可以清晰地看出,当解码方差被强行锁死后,变分自编码器的重构损失在数学拓扑上再次回归到了标准自编码器的 MSE 形式,其核心差异仅仅在于,中间连接的潜在变量 z 是从一个概率密度云中随机采样的,而非确定性传递 。
Kullback-Leibler 散度约束
解决重构精度的优化仅仅是构建生成模型的第一步。如果 VAE 的损失函数中仅仅包含上述的重构误差项,编码器网络 qϕ(z∣x) 完全可以通过输出无限趋近于零的极小方差(σϕ2→0),进而退化回一个传统的确定性自编码器。这将不可避免地导致潜在空间再次充满断裂和空白,彻底丧失生成所必需的连续性特征。
为了强制保证潜在空间的拓扑连通性并使其高度适应后续的生成任务,必须显式地对编码器的输出分布施加强力的正则化约束 。
高斯先验分布 pprior(z) 的引入
研究框架中引入了一个预先设定的 先验分布 Prior Distribution pprior(z),将其作为整个潜在空间必须无限逼近的“理想分布标杆”。对于现今绝大多数的 VAE,以及作为扩散模型基座的潜在特征编码器而言,这一先验被严格设定为标准各向同性高斯分布:
pprior(z)=N(0,Ik)
在扩散模型的生成推理阶段,从均值为 0,协方差为单位矩阵的分布 N(0,Ik) 中进行随机采样具有极高的计算效率,且无需任何额外的网络开销。 更重要的是,对角协方差矩阵 Ik 意味着该高斯先验在空间的各个维度分量之间是绝对统计独立的。这一数学性质强力促使 VAE 学习到具有深度特征解耦性质的潜在表示 。例如,在针对人脸流形的生成建模中,光照、姿态、发色等高度复杂的语义属性可能会被网络自动分配到相互正交的不同潜在维度上。这种解耦不仅极大增强了生成模型的可解释性,更使得后续的扩散模型在这些维度上进行时间步去噪时,能够剥离维度间的干扰,展现出更纯粹的流场演化效率 。
KL 散度作为先验对齐惩罚
确立先验后,优化目标转化为使得编码器输出的条件后验分布 qϕ(z∣x) 尽可能地拟合先验分布 N(0,Ik)。概率统计中,衡量两个连续概率分布之间非对称性差异的核心数学工具是 KL 散度 :
DKL(q(x)∣∣p(x))=∫q(x)logp(x)q(x)dx=EX∼q[logp(X)q(X)]
KL 散度具有极其重要的信息论属性:它始终满足非负性 DKL(q(x)∣∣p(x))≥0,并且当且仅当两个分布完全等价,即 q=p 时,KL 散度严格等于 0。我们将这一理论工具直接作为先验损失项引入 VAE 的总体目标函数中 :
LVAE−Prior(ϕ)=Ex∼pdata(x)
两个对角高斯分布之间的 KL 散度闭式解
VAE 理论体系的优雅之处在于,当编码器的后验分布与人为设定的先验分布均属于对角高斯分布家族时,它们之间的 KL 散度存在精简的解析闭式解。这意味着在实际的反向传播图构建中,我们无需使用计算代价高昂且具有高方差的蒙特卡洛积分来估算这一散度值。
推导这一闭式解是深刻理解 VAE 内部约束机制的关键。假设有两个具有对角协方差矩阵的高斯分布 q(x)=N(x;μq,diag(σq2)) 和 p(x)=N(x;μp,diag(σp2)),其中向量均位于 Rk 空间。 由多变量高斯分布的概率密度函数,我们可以首先写出两者的对数密度方程 :
logq(x)=−21log(2πσq2)−2σq21∣∣x−μq∣∣2
logp(x)=−21log(2πσp2)−2σp21∣∣x−μp∣∣2
基于 KL 散度的期望定义 DKL(q∣∣p)=Ex∼q[logq(x)−logp(x)],将上述对数密度方程代入并利用期望的线性性质展开,可得:
DKL(q∣∣p)=21logσq2σp2+2σp21Eq[∣∣x−μp∣∣2]−2σq21Eq[∣∣x−μq∣∣2]
由于变量 x 的采样完全服从自身分布 x∼N(μq,σq2I),利用二次型的期望迹,可以得出自身的偏差期望为 Eq[∣∣x−μq∣∣2]=tr(σq2I)=σq2。同时,利用代数拆分 x−μp=(x−μq)+(μq−μp),以及均值零偏差性质 Eq[x−μq]=0,可得交叉期望为 Eq[∣∣x−μp∣∣2]=σq2+∣∣μq−μp∣∣2。
将这两组关于期望的关键化简结果代入上述长方程,最终可以获得公式 :
DKL(q∣∣p)=21(K(σp2σq2)+σp2∣∣μq−μp∣∣2)
其中函数被定义为 K(α)=∑i=1k(αi−logαi−1)。
在 VAE 的标准应用场景中,先验分布 pprior 的均值为零向量,方差为全一矩阵(即 μp=0,σp2=1)。因此,上述复杂的一般形式散度公式被缩减为专门针对编码器输出的先验损失方程:
LVAE−Prior(ϕ)=Ex∼pdata(x)[21K(σϕ2(x))+21∣∣μϕ(x)∣∣2]
这一经过提纯的损失方程,蕴含着极具针对性的几何规训意图:
-
二次范数惩罚项 21∣∣μϕ(x)∣∣2:这一项在形式上等价于 L2 正则化。它在每次优化迭代中,严厉惩罚编码器预测均值 μϕ(x) 偏离潜在空间原点的任何趋势。这种引力机制迫使所有的潜在数据表征致密地聚集在坐标原点附近,彻底阻断了不同类别数据在空间中无限逃逸并发散的可能。
-
函数项 21K(σϕ2(x)):对于标量函数 f(σ2)=σ2−logσ2−1,利用微积分求导可知,其在 σ2=1 时达到唯一的全局最小值 0。因此,这一项的作用是施加一股极其强烈的约束力,迫使神经网络预测的所有方差 σϕ2 严格趋近于 1。这精准地打击了网络试图通过将方差缩小为 0 以骗过重构误差的“作弊”行为。方差趋于 1 保障了每个数据点所对应的概率云之间发生适度的重叠,从而通过插值保证了整个潜在生成空间的平滑过渡。
β-VAE 训练目标函数构建
将保证还原度底线的变分重构损失,与构筑平滑拓扑结构的先验损失相加,并引入一个全局超参数 β≥0 进行调和控制,我们最终确立了著名的 β-VAE 的全局训练目标函数:
LVAE(ϕ,θ)=LVAE−Recon(ϕ,θ)+βLVAE−Prior(ϕ)
=Ex∼pdata(x),z∼qϕ(z∣x)[2σθ2(z)1∣∣x−μθ(z)∣∣2+2dlogσθ2(z)+2βK(σϕ2(x))+2β∣∣μϕ(x)∣∣2]
| VAE 损失项组件 |
数学公式表达 |
核心驱动功能 |
| 均方重构误差 |
2σθ2(z)1∣x−μθ(z)∣2 |
约束重构图像的生成质量 |
| 解码不确定性 |
2dlogσθ2(z) |
控制重构约束的苛刻程度,平衡确定性与容错率。 |
| 方差收敛正则化 |
2βK(σϕ2(x)) |
遏制退化趋势,确保概率云具有标准体积,建立空间重叠的连续性保障。 |
| 均值引力正则化 |
2β∣μϕ(x)∣2 |
约束编码器产生的分布均值尽可能靠近 0。 |
重参数化技巧
在确立了完备的目标函数后,将该理论模型部署到现代深度学习框架进行端到端反向传播训练时,遭遇了一个致命的底层微积分障碍。
仔细观察损失函数 LVAE,可以发现其最外层的期望运算涉及对概率分布 z∼qϕ(z∣x) 的采样。在由张量构成的自动微分计算图中,z 作为一个从受控概率分布中被随机抛硬币般抽取的随机节点,其“随机采样”这一动作本身是一个无法求导的离散黑盒操作。换言之,当我们试图计算梯度 ∇ϕLVAE 时,误差信号一旦向回传播遇到这个随机墙,链式法则便会彻底断裂,导致编码器网络参数 ϕ 完全无法获得更新信号,整个生成模型的训练陷入瘫痪 。
为了优雅地摧毁这堵随机墙,Diederik P. Kingma 和 Max Welling 提出了不仅对 VAE 意义重大,而且深刻影响了后续无数深度生成模型(包括扩散模型去噪步骤)的革命性突破——重参数化 。
将随机性转移至外部独立源
重参数化技巧的本质哲学是:在计算图中,将不可导的随机性机制从直接依赖于可学习参数的分布主体中强行剥离出来,转化为一个独立且恒定的外部固定噪声源。
对于我们所使用的多元正态后验分布 z∼N(μϕ(x),σϕ2(x)Ik),通过引入一个符合标准高斯分布的纯净噪声辅助变量 ϵ∼N(0,Ik)。根据高斯分布的仿射变换定理,处于动态变化中的潜在表征 z 可以被绝对等价地重新参数化为 :
z=μϕ(x)+σϕ(x)⊙ϵ
其中 ⊙ 运算符表示向量的逐元素乘法。
通过这一看似简单的代数等价替换,计算图的拓扑结构发生了奇迹般的重组:
-
作为不确定性来源的噪声变量 ϵ∼N(0,Ik) 其概率密度完全独立于编码器的任何权重参数 ϕ。
-
从网络的内部视角来看,计算最终输出 z 的过程变成了一个仅由确定性的加法节点和乘法节点组合而成的确定性连续可导函数。
-
当损失函数的误差信号逆向涌入时,梯度可以如流水般平滑地通过加法和乘法节点,绕过作为终端节点的独立噪声源 ϵ,顺畅地流向 μϕ 和 σϕ,从而完美驱动编码器参数 ϕ 的优化迭代。
期望与算法流程
在重参数化范式后,损失函数的外部期望形式也随之发生了转换。期望的计算目标从依赖于参数的后验分布,转变为对独立外部噪声 ϵ 的期望,彻底清除了偏导数计算的依赖性障碍 :
LVAE(ϕ,θ)=Ex∼pdata(x),ϵ∼N(0,Ik)[2σθ2(z)1∣∣x−μθ(μϕ(x)+σϕ(x)ϵ)∣∣2+2dlogσθ2(z)+2βK(σϕ2(x))+2β∣∣μϕ(x)∣∣2]
经过前文论述的解码方差锁定(设为常量 σ2)后,最终可供代码级实现的无瑕疵损失函数确定为:
LVAE(ϕ,θ)=Ex∼pdata(x),ϵ∼N(0,Ik)[2σ21∣∣x−μθ(μϕ(x)+σϕ(x)ϵ)∣∣2+2βK(σϕ2(x))+2β∣∣μϕ(x)∣∣2]
此重参数化思想不仅使得 VAE 的端到端训练成为现实,其光芒同样照耀在更广阔的生成架构中。例如,处理离散随机变量所必需的 Gumbel-Softmax 松弛技巧本质上是其在离散域的等效延伸;而现代扩散模型在推断任意时间步 t 图像分布时的核心采样公式 xt=αtx0+1−αtϵ,也是重参数化思想的运用 。
下表为标准 β-VAE 的单次迭代流程:
| 训练步骤 |
操作名称 |
具体的数学算子与张量流转逻辑 |
| 步骤 1 |
前向信息编码 |
将当前 mini-batch 内的数据样本 {xi}i=1B 批量喂入编码器网络。网络逐样本输出均值特征向量 μi←μϕ(xi) 以及对数方差特征向量 logσi2←logσϕ2(xi)。 |
| 步骤 2 |
外部噪声采样 |
调度随机数生成器,从不受任何梯度追踪的标准高斯分布中抽取一批独立噪声张量 ϵi∼N(0,Ik)。 |
| 步骤 3 |
重参数化运算 |
执行数学变换。首先通过指数运算解码标准差 σi=exp(21logσi2),随后计算出允许梯度回传的潜在变量 zi←μi+σi⊙ϵi。 |
| 步骤 4 |
前向空间解码 |
将携带着扰动特性的潜在张量 zi 送入庞大的解码器网络,在数据空间执行重建映射,输出预测图像 x^i←μθ(zi)。 |
| 步骤 5 |
损失函数聚合 |
分别计算基于预测图像与原图差异的 MSE 重构损失 Lrecon,以及基于均值和对数方差的 KL 先验惩罚损失 LKL。最终按预设超参数 β 聚合为标量总损失 L←Lrecon+βLKL。 |
| 步骤 6 |
梯度回传更新 |
调用优化引擎(如 Adam 优化器),基于 L 执行反向传播自动求导,计算所有层级的梯度,并同步更新编码器参数 ϕ 和解码器参数 θ。 |

针对模型稳定性的额外工程考量: 在真实的大规模落地中,为了使得 VAE 能够高质量地服务于后续的扩散模型,研究者们往往会在标准框架外增加额外的稳定剂。
- 首先是引入 KL 预热策略,即在训练伊始的数百个 Epoch 中强制将 β 设为极小的趋近于零的值,让模型在训练初期优先攻克重建难关建立映射通道,随后再逐渐增大 β 值进行流形规训,这可以有效避开优化深渊 。
- 为了提高训练稳定性,一些实现将解码器的方差输出固定为常数方差 σ,而不是由神经网络学习的方差σθ。这种设置下重建项约束2σθ2(z)1∥x−μθ(z)∥2和均方误差∥x−μθ(z)∥2成固定比例。
- 若单纯依赖 MSE 往往会导致合成图像高频信号匮乏(即过度平滑),因此工程上普遍会并联计算基于预训练 VGG 网络的 感知损失 计算其特征空间上的损失而不是逐像素损失。
- 引入对抗生成网络的 GAN 对抗性判别器损失。这迫使解码器不仅在全局像素值上逼近原图,更要在高频边缘和视觉纹理特征上达到以假乱真的高保真效果 。
证据下界 ELBO 与联合分布
前文主要立足于直观的重构误差与空间正则化思想自下而上地构建了 VAE 损失。然而,VAE 之所以被冠以“变分”的名称,实际上源于其在概率生成模型体系与贝叶斯变分推断理论中的根基 。从全局的宏观视角审视,能够揭示出 VAE 模型架构设计中蕴含的更深刻的数学必然性。
从双向联合分布对齐到全局 KL 散度极小化
让我们尝试跳出编码和解码这两个割裂的步骤,从全局的概率有向图模型视角出发。因为自编码器系统同时包含了 X→Z 和 Z→X 的双向通道,这自然在系统中催生了两个关于真实数据 x 和潜在特征变量 z 的联合分布:
-
由编码器诱导的联合分布:数据按照真实的统计规律产生,随后被网络映射到潜层,可定义为 qϕ(x,z)=pdata(x)qϕ(z∣x)。
-
由解码器诱导的联合分布:潜在变量直接从人为设定的先验模型中生成,随后被反向映射回数据空间,可定义为 pθ(x,z)=pθ(x∣z)pprior(z)。
基于这种全局图景,训练 VAE 这一行为,在宏观哲学上的终极本质,就是试图寻找出最优的网络参数组合 ϕ 和 θ,使得这两个分别代表着数据压缩路径与数据生成路径的联合分布,在整个高维概率空间中尽可能地趋于重合一致。在统计学中,这种“促使两分布重合”的愿景,等价于最小化它们之间的全局 KL 散度:
DKL(qϕ(x,z)∣∣pθ(x,z))=Eqϕ[log(pθ(x∣z)pprior(z)pdata(x)qϕ(z∣x))]
利用对数函数 log(C⋅DA⋅B)=logA+logB−logC−logD 的优良解析属性,将上述庞大复杂的对数项进行无损的代数展开,并依照期望的线性可加性原则拆分为三个独立的期望子项:
=Ex∼pdata[logpdata(x)]+Ex∼pdata−Ex∼pdata,z∼qϕ[logpθ(x∣z)]
由于 E[logpdata(x)] 这一项仅仅是对真实数据集内部数据密度的熵估计,其值完全由外部客观给定的训练集决定,是一个绝对独立于任何网络结构参数 ϕ 和 θ 的系统常量。在优化视角下,常量可以被毫无顾忌地忽略。合并后,我们可以惊叹地发现一个绝妙的恒等式:
DKL(qϕ(x,z)∣∣pθ(x,z))=Const+LVAE(ϕ,θ)
这一恒等式宣告了一个重要的事实:我们之前凭借着对降维工程的直觉拼凑出的 LVAE(即重构误差抵消先验正则化惩罚),在纯粹的高阶数学维度上,严密地等价于对整个生成体系编码器联合分布和解码器联合分布总体散度的全局最小化。 这种自上而下的数学一致性,赋予了 VAE 模型无可辩驳的坚实理论地位 。
证据下界的提取
在正统的机器学习生成理论和变分推断领域中,模型优化的核心原则被归结为最大化边缘对数似然准则,即致力于让模型分配给真实数据集的总体边缘概率 logpθ(x)尽可能大。
然而,在面对由海量参数构成的深度神经网络时,由于 pθ(x)=∫pθ(x∣z)pprior(z)dz 这个高维连续空间积分根本不存在解析解,也无法通过常规数值方法在可接受的时间内近似,这一积分在计算复杂性理论上属于完全不可解的状态 。
为应对不可解困境,变分推断通过引入巧妙的不等式构建了替身目标。通过应用经典的贝叶斯逆向公式 pθ(z∣x)=pθ(x)pθ(x∣z)pprior(z),并结合对数的基本性质,我们对散度项进行极具技巧性的重新排列,可得:
Ez∼qϕ(z∣x)[log(qϕ(z∣x)pθ(x∣z)pprior(z))]+DKL(qϕ(z∣x)∣∣pθ(z∣x))=logpθ(x)
借助 KL 散度一项极其关键的固有非负性定理(即无论如何分布,DKL(qϕ(z∣x)∣∣pθ(z∣x))≥0 恒成立),我们将该项抹除,立刻在等式左侧产生了一个向下取舍的绝对下界:
logpθ(x)≥Ez∼qϕ(z∣x)[log(qϕ(z∣x)pθ(x∣z)pprior(z))]≡ELBO(x;ϕ,θ)
这个不等式的左端边界在学术界被统称为 证据下界 Evidence Lower Bound 。 如果我们对 ELBO 内部的对数项再次进行简单的展开,它恰好等价于 Eqϕ[logpθ(x∣z)]−DKL(qϕ(z∣x)∣∣pprior(z)),这在数学符号上正是我们在公式 79 中定义的负的变分自编码器损失,即 −LVAE。
推导至此,逻辑闭环终于扣合:当我们在深度学习框架中通过反向传播努力最小化 LVAE 损失函数时,在信息论的平行时空中,我们实际上是在孜孜不倦地最大化庞大不可解模型边缘似然的理论下界 ELBO。
“变分”一词的根本由来 : 面对那个横亘在前的不可解的贝叶斯后验概率分布 pθ(z∣x),我们之所以不能直接在代码里硬令编码器等于真实后验,是因为真实后验的分母本身就包含了那个无解的积分 logpθ(x)。因此,在统计学中“变分”一词的本意是指:我们主动引入了一个相对简单且完全可控、可训练的分布族 qϕ(⋅∣x),去作为那个深渊般难以计算的真实后验的变分近似替身。通过不断地优化网络去缩短替身与本体之间的距离,我们达成了推断的目标。
扩散模型中的 VAE
在彻底解析了 VAE 全貌之后,一个尖锐且切中要害的问题必然浮现:既然经过完善训练的 VAE 本身就已经是一台具备独立运作能力的生成模型(在推理时,只需简单地采样 z∼pprior 并输入解码器即可生成图像),那么现代生成领域为什么非要在它提取好的潜在空间中,再不厌其烦地套用一个参数量庞大的连续扩散模型呢?
这一工程架构的转向,并非是对自编码器的全盘否定,而是源自于针对信息合成复杂度的“分层分工”思想,以及应对 VAE 在追求极致生成质量时所暴露出的不可逾越的理论鸿沟——摊销差距 。
VAE 独立执行生成任务的内在瓶颈
当强行要求 VAE 独立担纲全局的生成任务时,其合成质量会严格受制于一种被称为摊销差距的理论锁死现象。
回顾我们在变分推断中建立的 ELBO 不等式,可以清晰地看到:
logpθ(x)=ELBO+DKL(qϕ(z∣x)∣∣pθ(z∣x))
两者之间的绝对差距,完全取决于我们使用神经网络构建的变分近似 qϕ(z∣x) 与客观存在的、包含无数非线性复杂度的真实不可解后验 pθ(z∣x) 之间能否达到完美的严丝合缝。
如果我们进一步将这种差距提升至整个数据分布和潜在空间的边缘分布视角,利用极度复杂的信息处理不等式链式推导,可以得出核心的推论:
DKL(qϕ(x,z)∣∣pθ(x,z))≥DKL(qϕ(z)∣∣pprior(z))
这串冰冷的数学符号无情地揭示了一个事实:即使我们的优化算法再如何登峰造极,在漫长的训练结束那一刻,由数百万张图像映射而成的潜在变量的聚合边缘总体分布 qϕ(z)=∫qϕ(z∣x)pdata(x)dx,在形状的沟壑与凸起上,永远无法做到与那个圆润光滑的标准各向同性高斯先验 pprior(z) 百分之百绝对等同 。
此时,如果在推理生成阶段,我们天真地认为任务已经完成,直接从纯净无瑕的高斯先验 pprior(z) 中大把抓取随机噪声扔进解码器网络,这就等同于迫使解码器处理发生了分布外泛化偏移的数据。因为解码器在成千上万轮的训练中所逐渐适应并深深记忆的,是具有细微扭曲特征的 qϕ(z),而不是刻板标准的 pprior(z)。这种微小但在高维空间中被层层放大的分布失配,加之解码器为避免惩罚而趋向于均值输出的 MSE 特性,不可逆转地导致了单独依靠 VAE 吐出的生成图像通常笼罩着一层挥之不去的阴影:它们存在着明显的边缘虚化、高频纹理细节丢失,这便是业界常说的“VAE 特征性模糊”现象 。
利用扩散流场填补潜在分布沟壑
潜在扩散模型 Latent Diffusion Models 构型的提出,如同在工程学的绝壁上架设了一座极其精妙的桥梁,以堪称艺术的手段解决了这个失配问题 。
在这一组合范式下,VAE 彻底放弃了作为大一统生成模型的雄心壮志,而是主动将身位后退,退化为专门负责处理底层感知压缩的高性能基础设施。它的任务被大幅度精简:只负责通过强大的卷积残差堆叠,将难以运算且布满高频无关紧要噪声的千万维像素空间,高效转换降维为一个平滑得多的低维潜在分布。最为关键的是,VAE 此时不再面临巨大的压力,去被迫将这片流形像面团一样强行揉捏成一个在各处都绝对契合标准高斯分布的完美圆球。
真正主导语义级别结构创造与跨模态对齐(如文本到图像的引导)的重任,被全权移交给了位于潜在空间内部的扩散模型。无论是通过连续扩散分数匹配预测梯度,还是通过流匹配拟合基于时间微积分的连续向量场,驻扎在潜在空间 Z 内的扩散骨干网络被委以了唯一的重任:学习出一条极其精密的非线性逆向时间演化轨迹。这条轨迹的任务,就是如何将完全毫无信息的标准高斯分布的起点,通过数百次的微步纠偏与去噪雕琢,极度精准地输送、映射并降落到由 VAE 千锤百炼提取出的那个充满复杂边界的边缘潜在分布 qϕ(z) 上。
通过实施这种“各司其职、两段式推进”的架构分工策略:
-
作为后置引擎的扩散模型,成功避开了在三百万维度的庞大像素沙海中耗费海量 FLOPS 去建模光影噪声的算力灾难,从而能够将全部的 Transformer 注意力头或者 U-Net 的核心通道,集中投入于生成更符合人类宏观认知逻辑的高阶语义生成任务中 。
-
作为前置桥头堡的 VAE 同样被彻底解放。它不必再忌惮因为分布无法与高斯先验对齐而导致生成的灾难。它现在唯一的考核指标,就是确保接收到扩散模型千辛万苦投递来的优质 z 向量时,能够毫无损耗地将其解压缩为令人惊艳的高清画面。 工程实践与海量消融实验一致表明,基于 SDEs 和 ODEs 的扩散生成在匹配极为复杂的非平稳概率分布上的灵活性与准确度,远远将单纯的前馈 VAE 甩在身后。正是这种底层物理压缩与高层统计流场匹配的强强联合组合拳,才催生了当前人工智能视觉领域的一系列跨时代奇迹 。
| 架构策略范式对比 |
所处运算空间 |
核心优势 |
致命劣势与瓶颈 |
在当前生态中的演进定位 |
| 全尺寸像素级扩散 |
原始数据域 RH×W×3 |
中间绝无任何解码器介入,不存在压缩信息损耗,拥有极高的逼真度理论上限。 |
推理时间与显存占用随着分辨率指数级暴涨,从算力角度几乎无法扩展至千万像素或长视频域 。 |
仅用于基础理论验证或极低分辨率(如 64×64)小图生成试验(如早期的 DDPM 论文)。 |
| 单一 VAE 前馈生成 |
低维潜在流形 Rk |
极致的采样速度,仅需一次编码与一次解码的前向毫秒级耗时即可出图。 |
深受摊销差距制约,图像存在不可避免的特征性模糊,缺乏接受外部复杂模态(如文本)有效引导的灵活接口 。 |
已退出高质量生成主赛道,转而主攻对实时性要求极高的音视频流无损编解码、医疗影像异常检测等。 |
| 组合式潜在扩散 |
极低维语义流形 Rk |
打通了高分辨率与算力限制。是当前算力墙下实现多模态高质量对齐的最佳架构权衡方案。 |
生成上限的天花板不可逆转地受限于 VAE 第一阶段预训练的压缩损失,存在可能出现的微细重构瑕疵。 |
目前的生成范式,主导目前所有 SOTA 顶尖闭源与开源模型(如 Stable Diffusion 3, Meta Movie Gen)。 |