2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Continuous Diffusion Language Models | 2026-05-13 | 2026-05-13 | concept |
|
|
Continuous Diffusion Language Models
连续扩散语言模型(Continuous DLM)将离散 token 映射到连续表示空间进行去噪生成,与在 token 空间直接操作的discrete-diffusion-language-models 形成对比。
两类连续 DLM
嵌入空间方法(Embedding-space)
直接在 token 嵌入上添加高斯噪声并去噪:
- Diffusion-LM:在嵌入空间加噪,通过 rounding 步骤恢复 token
- CDCD、DiffuSeq:类似思路,用于文本扩散和序列生成
- 共同特征:中间步骤通常通过 CE loss 施加 token 级监督
潜在扩散方法(Latent Diffusion)
在冻结编码器的潜在表示上操作:
- LD4LG:冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
- 需要额外的 decoder 模块
ELF 的独特性
embedded-language-flows 属于嵌入空间方法,但有两个关键区别:
- 无中间 CE 监督:除最后一步外,全程使用 MSE loss,不施加 token 级约束
- 无单独 decoder:利用 Flow Matching 的最后一步自然完成离散化(shared-weight-discretization)
这种极简设计使其能无缝迁移图像域扩散模型的成熟技术(CFG、蒸馏、高效采样)。
关键争议
连续 DLM 长期被认为不如离散 DLM,但 ELF 表明这不是语言建模固有特性,而是算法设计问题。通过正确的设计选择(flow-matching + x-prediction-parameterization + shared-weight-discretization),连续 DLM 可以全面超越离散方法。
相关概念
- flow-matching — 连续时间生成框架
- embedded-language-flows — 当前最优连续 DLM
- discrete-diffusion-language-models — 离散空间的对比方法
- shared-weight-discretization — ELF 的核心离散化机制