CFG for Language (Classifier-Free Guidance)

Classifier-Free Guidance (CFG) 最早在图像扩散模型中提出，通过外推条件和无条件预测来引导生成方向。embedded-language-flows 将其首次有效应用于语言扩散模型。

核心公式

在 Flow Matching 框架中：

v_cfg(z_t | c) = ω · v(z_t | c) + (1-ω) · v(z_t | ∅)

其中 ω 是引导强度（guidance scale），c 是条件信号，∅ 是空条件。

由于语言生成没有显式 class label，ELF 使用 self-conditioning 构造条件信号 c：将上一时间步的预测 x̂' 作为当前步的条件。

为避免推理时双倍前向开销，ELF 采用训练时 CFG：

CFG 原本为连续量设计（score function, velocity field）。在连续空间中 CFG 直接作用于速度/嵌入预测；在离散空间中需要处理离散概率分布的外推，效果通常更差。ELF 的连续嵌入设计使其能自然受益于图像域积累的 CFG 经验。

ELF 中 CFG 显著降低 Gen. PPL：