3.6 KiB
title, created, updated, type, arxiv, authors, venue, tags, sources
| title | created | updated | type | arxiv | authors | venue | tags | sources | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ELF: Embedded Language Flows | 2026-05-13 | 2026-05-13 | paper | 2605.10938 |
|
Tech Report (2026) |
|
|
ELF: Embedded Language Flows
MIT | 2026 | arXiv:2605.10938
Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He
核心问题
连续扩散语言模型(DLM)能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?
方法
ELF 提出了一种极简连续 DLM 设计:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过共享权重网络映射回离散 token。
核心设计
-
Flow Matching 框架:采用连续时间 rectified-flows(线性插值路径:z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。
-
x-prediction 参数化:网络直接预测干净的嵌入 x̂(而非速度 v),使去噪(MSE)和解码(CE)两种训练目标共享同一网络权重。参考 x-prediction-parameterization。
-
共享权重离散化(Shared-Weight Discretization):单个网络
net_θ(z, t, mode)通过二进制 mode token 区分两种操作:- Denoise mode (t<1):MSE loss,预测干净嵌入
- Decode mode (t=1):CE loss,经 unembedding 层输出离散 token
无需额外 decoder。参考 shared-weight-discretization。
-
Classifier-Free Guidance:由于 ELF 全程在连续空间操作,CFG 可以自然适用。结合 self-conditioning 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 classifier-free-guidance-language。
-
ODE/SDE 采样器:支持 ODE(欧拉求解器)和 SDE 启发式采样(每步注入小噪声)。参考 sde-sampler-language。
训练流程
- 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d
- 去噪分支(80% 批次):随机采样 t,线性插值构造 z_t,MSE 训练
- 解码分支(20% 批次):t=1,对 z 加 token 级 corruption,CE 训练
关键发现
- 105M ELF-B 超越 170M 基线(MDLM, Duo, FLM, LangFlow),训练 token 仅 10%
- 32 步采样即可达到基线 1024 步的质量,Gen. PPL 大幅降低
- 无需蒸馏即可与蒸馏版基线竞争
- 在机器翻译(WMT14 De-En)和摘要(XSum)任务上也达到最优
- CFG 配合自条件化显著提升无条件生成质量
- x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差
概念网络
核心概念:embedded-language-flows → flow-matching + continuous-diffusion-language-models → shared-weight-discretization
支撑技术:rectified-flows · x-prediction-parameterization · self-conditioning · classifier-free-guidance-language · sde-sampler-language
意义
ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督)就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术(CFG、蒸馏、高效采样)的直通道。