Files
myWiki/papers/elf-embedded-language-flows.md

71 lines
3.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "ELF: Embedded Language Flows"
created: 2026-05-13
updated: 2026-05-13
type: paper
arxiv: "2605.10938"
authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
venue: "Tech Report (2026)"
tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
sources:
- https://arxiv.org/abs/2605.10938
- https://github.com/lillian039/ELF
---
# ELF: Embedded Language Flows
**MIT | 2026 | arXiv:2605.10938**
Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
## 核心问题
连续扩散语言模型DLM能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?
## 方法
ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。
### 核心设计
1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]]线性插值路径z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。
2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂而非速度 v使去噪MSE和解码CE两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
3. **共享权重离散化Shared-Weight Discretization**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作:
- **Denoise mode (t<1)**MSE loss预测干净嵌入
- **Decode mode (t=1)**CE loss unembedding 层输出离散 token
无需额外 decoder参考 [[shared-weight-discretization]]。
4. **Classifier-Free Guidance**由于 ELF 全程在连续空间操作CFG 可以自然适用结合 [[self-conditioning]] 构造条件信号使用训练时 CFG 避免推理时双倍前向开销参考 [[classifier-free-guidance-language]]。
5. **ODE/SDE 采样器**支持 ODE欧拉求解器 SDE 启发式采样每步注入小噪声)。参考 [[sde-sampler-language]]。
### 训练流程
- 编码冻结的预训练 T5-small encoder token 序列映射到 512-d 嵌入空间 bottleneck 压缩到 128-d
- 去噪分支80% 批次随机采样 t线性插值构造 z_tMSE 训练
- 解码分支20% 批次t=1 z token corruptionCE 训练
## 关键发现
1. **105M ELF-B 超越 170M 基线**MDLM, Duo, FLM, LangFlow训练 token 10%
2. **32 步采样**即可达到基线 1024 步的质量Gen. PPL 大幅降低
3. 无需蒸馏即可与蒸馏版基线竞争
4. 在机器翻译WMT14 De-En和摘要XSum任务上也达到最优
5. CFG 配合自条件化显著提升无条件生成质量
6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
## 概念网络
核心概念[[embedded-language-flows]] [[flow-matching]] + [[continuous-diffusion-language-models]] [[shared-weight-discretization]]
支撑技术[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
评估指标[[generative-perplexity]]
## 意义
ELF 证明连续 DLM 性能差距源于算法设计而非语言本质——用极简设计无额外 decoder无逐步 CE 监督就能达到甚至超越离散方法这为扩散语言模型开辟了通向图像域成熟技术CFG蒸馏高效采样的直通道