20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/elf-embedded-language-flows.md
+++ b/papers/elf-embedded-language-flows.md
@@ -0,0 +1,70 @@
+---
+title: "ELF: Embedded Language Flows"
+created: 2026-05-13
+updated: 2026-05-13
+type: paper
+arxiv: "2605.10938"
+authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
+venue: "Tech Report (2026)"
+tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
+sources:
+  - https://arxiv.org/abs/2605.10938
+  - https://github.com/lillian039/ELF
+---
+
+# ELF: Embedded Language Flows
+
+**MIT | 2026 | arXiv:2605.10938**
+
+Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
+
+## 核心问题
+
+连续扩散语言模型（DLM）能否达到与离散 DLM 相当甚至更优的性能？当前领先的 DLM 主要在离散 token 空间操作，但这是语言建模的固有特性还是算法设计选择的问题？
+
+## 方法
+
+ELF 提出了一种**极简连续 DLM 设计**：在整个去噪过程中保持在连续嵌入空间，仅在最后一步通过**共享权重网络**映射回离散 token。
+
+### 核心设计
+
+1. **Flow Matching 框架**：采用连续时间 [[rectified-flows]]（线性插值路径：z_t = t·x + (1-t)·ε），在连续嵌入空间中定义速度场。
+
+2. **x-prediction 参数化**：网络直接预测干净的嵌入 x̂（而非速度 v），使去噪（MSE）和解码（CE）两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
+
+3. **共享权重离散化（Shared-Weight Discretization）**：单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作：
+   - **Denoise mode (t<1)**：MSE loss，预测干净嵌入
+   - **Decode mode (t=1)**：CE loss，经 unembedding 层输出离散 token
+   
+   无需额外 decoder。参考 [[shared-weight-discretization]]。
+
+4. **Classifier-Free Guidance**：由于 ELF 全程在连续空间操作，CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号，使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。
+
+5. **ODE/SDE 采样器**：支持 ODE（欧拉求解器）和 SDE 启发式采样（每步注入小噪声）。参考 [[sde-sampler-language]]。
+
+### 训练流程
+
+- 编码：冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间，经 bottleneck 压缩到 128-d
+- 去噪分支（80% 批次）：随机采样 t，线性插值构造 z_t，MSE 训练
+- 解码分支（20% 批次）：t=1，对 z 加 token 级 corruption，CE 训练
+
+## 关键发现
+
+1. **105M ELF-B 超越 170M 基线**（MDLM, Duo, FLM, LangFlow），训练 token 仅 10%
+2. **32 步采样**即可达到基线 1024 步的质量，Gen. PPL 大幅降低
+3. 无需蒸馏即可与蒸馏版基线竞争
+4. 在机器翻译（WMT14 De-En）和摘要（XSum）任务上也达到最优
+5. CFG 配合自条件化显著提升无条件生成质量
+6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
+
+## 概念网络
+
+核心概念：[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]]
+
+支撑技术：[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
+
+评估指标：[[generative-perplexity]]
+
+## 意义
+
+ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计（无额外 decoder、无逐步 CE 监督）就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术（CFG、蒸馏、高效采样）的直通道。