Continuous Diffusion Language Models

连续扩散语言模型（Continuous DLM）将离散 token 映射到连续表示空间进行去噪生成，与在 token 空间直接操作的discrete-diffusion-language-models 形成对比。

两类连续 DLM

嵌入空间方法（Embedding-space）

直接在 token 嵌入上添加高斯噪声并去噪：

Diffusion-LM：在嵌入空间加噪，通过 rounding 步骤恢复 token
CDCD、DiffuSeq：类似思路，用于文本扩散和序列生成
共同特征：中间步骤通常通过 CE loss 施加 token 级监督

潜在扩散方法（Latent Diffusion）

在冻结编码器的潜在表示上操作：

LD4LG：冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
需要额外的 decoder 模块

ELF 的独特性

embedded-language-flows 属于嵌入空间方法，但有两个关键区别：

无中间 CE 监督：除最后一步外，全程使用 MSE loss，不施加 token 级约束
无单独 decoder：利用 Flow Matching 的最后一步自然完成离散化（shared-weight-discretization）

这种极简设计使其能无缝迁移图像域扩散模型的成熟技术（CFG、蒸馏、高效采样）。

关键争议

连续 DLM 长期被认为不如离散 DLM，但 ELF 表明这不是语言建模固有特性，而是算法设计问题。通过正确的设计选择（flow-matching + x-prediction-parameterization + shared-weight-discretization），连续 DLM 可以全面超越离散方法。

2.0 KiB Raw Permalink Blame History Unescape Escape