20260514:增加新内容
This commit is contained in:
48
concepts/continuous-diffusion-language-models.md
Normal file
48
concepts/continuous-diffusion-language-models.md
Normal file
@@ -0,0 +1,48 @@
|
||||
---
|
||||
title: "Continuous Diffusion Language Models"
|
||||
created: 2026-05-13
|
||||
updated: 2026-05-13
|
||||
type: concept
|
||||
tags: [diffusion-language-model, continuous-embeddings, language-generation]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2605.10938
|
||||
---
|
||||
|
||||
# Continuous Diffusion Language Models
|
||||
|
||||
连续扩散语言模型(Continuous DLM)将离散 token 映射到连续表示空间进行去噪生成,与在 token 空间直接操作的[[discrete-diffusion-language-models|离散 DLM]] 形成对比。
|
||||
|
||||
## 两类连续 DLM
|
||||
|
||||
### 嵌入空间方法(Embedding-space)
|
||||
|
||||
直接在 token 嵌入上添加高斯噪声并去噪:
|
||||
- **Diffusion-LM**:在嵌入空间加噪,通过 rounding 步骤恢复 token
|
||||
- **CDCD**、**DiffuSeq**:类似思路,用于文本扩散和序列生成
|
||||
- 共同特征:中间步骤通常通过 CE loss 施加 token 级监督
|
||||
|
||||
### 潜在扩散方法(Latent Diffusion)
|
||||
|
||||
在冻结编码器的潜在表示上操作:
|
||||
- **LD4LG**:冻结编码器 → 潜在空间扩散 → 单独训练 decoder 恢复 token
|
||||
- 需要额外的 decoder 模块
|
||||
|
||||
## ELF 的独特性
|
||||
|
||||
[[embedded-language-flows|ELF]] 属于嵌入空间方法,但有两个关键区别:
|
||||
|
||||
1. **无中间 CE 监督**:除最后一步外,全程使用 MSE loss,不施加 token 级约束
|
||||
2. **无单独 decoder**:利用 Flow Matching 的最后一步自然完成离散化([[shared-weight-discretization]])
|
||||
|
||||
这种极简设计使其能**无缝迁移图像域扩散模型的成熟技术**(CFG、蒸馏、高效采样)。
|
||||
|
||||
## 关键争议
|
||||
|
||||
连续 DLM 长期被认为不如离散 DLM,但 ELF 表明这**不是语言建模固有特性,而是算法设计问题**。通过正确的设计选择([[flow-matching]] + [[x-prediction-parameterization]] + [[shared-weight-discretization]]),连续 DLM 可以全面超越离散方法。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[flow-matching]] — 连续时间生成框架
|
||||
- [[embedded-language-flows]] — 当前最优连续 DLM
|
||||
- [[discrete-diffusion-language-models]] — 离散空间的对比方法
|
||||
- [[shared-weight-discretization]] — ELF 的核心离散化机制
|
||||
Reference in New Issue
Block a user