ELF: Embedded Language Flows

MIT | 2026 | arXiv:2605.10938

Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

核心问题

连续扩散语言模型（DLM）能否达到与离散 DLM 相当甚至更优的性能？当前领先的 DLM 主要在离散 token 空间操作，但这是语言建模的固有特性还是算法设计选择的问题？

ELF 提出了一种极简连续 DLM 设计：在整个去噪过程中保持在连续嵌入空间，仅在最后一步通过共享权重网络映射回离散 token。

Flow Matching 框架：采用连续时间 rectified-flows（线性插值路径：z_t = t·x + (1-t)·ε），在连续嵌入空间中定义速度场。
x-prediction 参数化：网络直接预测干净的嵌入 x̂（而非速度 v），使去噪（MSE）和解码（CE）两种训练目标共享同一网络权重。参考 x-prediction-parameterization。
共享权重离散化（Shared-Weight Discretization）：单个网络 net_θ(z, t, mode) 通过二进制 mode token 区分两种操作：
- Denoise mode (t<1)：MSE loss，预测干净嵌入
- Decode mode (t=1)：CE loss，经 unembedding 层输出离散 token
无需额外 decoder。参考 shared-weight-discretization。
Classifier-Free Guidance：由于 ELF 全程在连续空间操作，CFG 可以自然适用。结合 self-conditioning 构造条件信号，使用训练时 CFG 避免推理时双倍前向开销。参考 classifier-free-guidance-language。
ODE/SDE 采样器：支持 ODE（欧拉求解器）和 SDE 启发式采样（每步注入小噪声）。参考 sde-sampler-language。

ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计（无额外 decoder、无逐步 CE 监督）就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术（CFG、蒸馏、高效采样）的直通道。