20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/continuous-diffusion-language-models.md
+++ b/concepts/continuous-diffusion-language-models.md
@@ -0,0 +1,48 @@
+---
+title: "Continuous Diffusion Language Models"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [diffusion-language-model, continuous-embeddings, language-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+---
+
+# Continuous Diffusion Language Models
+
+连续扩散语言模型（Continuous DLM）将离散 token 映射到连续表示空间进行去噪生成，与在 token 空间直接操作的[[discrete-diffusion-language-models|离散 DLM]] 形成对比。
+
+## 两类连续 DLM
+
+### 嵌入空间方法（Embedding-space）
+
+直接在 token 嵌入上添加高斯噪声并去噪：
+- **Diffusion-LM**：在嵌入空间加噪，通过 rounding 步骤恢复 token
+- **CDCD**、**DiffuSeq**：类似思路，用于文本扩散和序列生成
+- 共同特征：中间步骤通常通过 CE loss 施加 token 级监督
+
+### 潜在扩散方法（Latent Diffusion）
+
+在冻结编码器的潜在表示上操作：
+- **LD4LG**：冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
+- 需要额外的 decoder 模块
+
+## ELF 的独特性
+
+[[embedded-language-flows|ELF]] 属于嵌入空间方法，但有两个关键区别：
+
+1. **无中间 CE 监督**：除最后一步外，全程使用 MSE loss，不施加 token 级约束
+2. **无单独 decoder**：利用 Flow Matching 的最后一步自然完成离散化（[[shared-weight-discretization]]）
+
+这种极简设计使其能**无缝迁移图像域扩散模型的成熟技术**（CFG、蒸馏、高效采样）。
+
+## 关键争议
+
+连续 DLM 长期被认为不如离散 DLM，但 ELF 表明这**不是语言建模固有特性，而是算法设计问题**。通过正确的设计选择（[[flow-matching]] + [[x-prediction-parameterization]] + [[shared-weight-discretization]]），连续 DLM 可以全面超越离散方法。
+
+## 相关概念
+
+- [[flow-matching]] — 连续时间生成框架
+- [[embedded-language-flows]] — 当前最优连续 DLM
+- [[discrete-diffusion-language-models]] — 离散空间的对比方法
+- [[shared-weight-discretization]] — ELF 的核心离散化机制