20260514:增加新内容
This commit is contained in:
70
papers/elf-embedded-language-flows.md
Normal file
70
papers/elf-embedded-language-flows.md
Normal file
@@ -0,0 +1,70 @@
|
||||
---
|
||||
title: "ELF: Embedded Language Flows"
|
||||
created: 2026-05-13
|
||||
updated: 2026-05-13
|
||||
type: paper
|
||||
arxiv: "2605.10938"
|
||||
authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
|
||||
venue: "Tech Report (2026)"
|
||||
tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2605.10938
|
||||
- https://github.com/lillian039/ELF
|
||||
---
|
||||
|
||||
# ELF: Embedded Language Flows
|
||||
|
||||
**MIT | 2026 | arXiv:2605.10938**
|
||||
|
||||
Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**
|
||||
|
||||
## 核心问题
|
||||
|
||||
连续扩散语言模型(DLM)能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?
|
||||
|
||||
## 方法
|
||||
|
||||
ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。
|
||||
|
||||
### 核心设计
|
||||
|
||||
1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]](线性插值路径:z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。
|
||||
|
||||
2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂(而非速度 v),使去噪(MSE)和解码(CE)两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。
|
||||
|
||||
3. **共享权重离散化(Shared-Weight Discretization)**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作:
|
||||
- **Denoise mode (t<1)**:MSE loss,预测干净嵌入
|
||||
- **Decode mode (t=1)**:CE loss,经 unembedding 层输出离散 token
|
||||
|
||||
无需额外 decoder。参考 [[shared-weight-discretization]]。
|
||||
|
||||
4. **Classifier-Free Guidance**:由于 ELF 全程在连续空间操作,CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。
|
||||
|
||||
5. **ODE/SDE 采样器**:支持 ODE(欧拉求解器)和 SDE 启发式采样(每步注入小噪声)。参考 [[sde-sampler-language]]。
|
||||
|
||||
### 训练流程
|
||||
|
||||
- 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d
|
||||
- 去噪分支(80% 批次):随机采样 t,线性插值构造 z_t,MSE 训练
|
||||
- 解码分支(20% 批次):t=1,对 z 加 token 级 corruption,CE 训练
|
||||
|
||||
## 关键发现
|
||||
|
||||
1. **105M ELF-B 超越 170M 基线**(MDLM, Duo, FLM, LangFlow),训练 token 仅 10%
|
||||
2. **32 步采样**即可达到基线 1024 步的质量,Gen. PPL 大幅降低
|
||||
3. 无需蒸馏即可与蒸馏版基线竞争
|
||||
4. 在机器翻译(WMT14 De-En)和摘要(XSum)任务上也达到最优
|
||||
5. CFG 配合自条件化显著提升无条件生成质量
|
||||
6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
|
||||
|
||||
## 概念网络
|
||||
|
||||
核心概念:[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]]
|
||||
|
||||
支撑技术:[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]
|
||||
|
||||
评估指标:[[generative-perplexity]]
|
||||
|
||||
## 意义
|
||||
|
||||
ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督)就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术(CFG、蒸馏、高效采样)的直通道。
|
||||
Reference in New Issue
Block a user