Files
myWiki/concepts/continuous-diffusion-language-models.md

49 lines
2.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Continuous Diffusion Language Models"
created: 2026-05-13
updated: 2026-05-13
type: concept
tags: [diffusion-language-model, continuous-embeddings, language-generation]
sources:
- https://arxiv.org/abs/2605.10938
---
# Continuous Diffusion Language Models
连续扩散语言模型Continuous DLM将离散 token 映射到连续表示空间进行去噪生成,与在 token 空间直接操作的[[discrete-diffusion-language-models|离散 DLM]] 形成对比。
## 两类连续 DLM
### 嵌入空间方法Embedding-space
直接在 token 嵌入上添加高斯噪声并去噪:
- **Diffusion-LM**:在嵌入空间加噪,通过 rounding 步骤恢复 token
- **CDCD**、**DiffuSeq**:类似思路,用于文本扩散和序列生成
- 共同特征:中间步骤通常通过 CE loss 施加 token 级监督
### 潜在扩散方法Latent Diffusion
在冻结编码器的潜在表示上操作:
- **LD4LG**:冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
- 需要额外的 decoder 模块
## ELF 的独特性
[[embedded-language-flows|ELF]] 属于嵌入空间方法,但有两个关键区别:
1. **无中间 CE 监督**:除最后一步外,全程使用 MSE loss不施加 token 级约束
2. **无单独 decoder**:利用 Flow Matching 的最后一步自然完成离散化([[shared-weight-discretization]]
这种极简设计使其能**无缝迁移图像域扩散模型的成熟技术**CFG、蒸馏、高效采样
## 关键争议
连续 DLM 长期被认为不如离散 DLM但 ELF 表明这**不是语言建模固有特性,而是算法设计问题**。通过正确的设计选择([[flow-matching]] + [[x-prediction-parameterization]] + [[shared-weight-discretization]]),连续 DLM 可以全面超越离散方法。
## 相关概念
- [[flow-matching]] — 连续时间生成框架
- [[embedded-language-flows]] — 当前最优连续 DLM
- [[discrete-diffusion-language-models]] — 离散空间的对比方法
- [[shared-weight-discretization]] — ELF 的核心离散化机制