--- title: "ELF: Embedded Language Flows" created: 2026-05-13 updated: 2026-05-13 type: paper arxiv: "2605.10938" authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"] venue: "Tech Report (2026)" tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation] sources: - https://arxiv.org/abs/2605.10938 - https://github.com/lillian039/ELF --- # ELF: Embedded Language Flows **MIT | 2026 | arXiv:2605.10938** Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He** ## 核心问题 连续扩散语言模型(DLM)能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题? ## 方法 ELF 提出了一种**极简连续 DLM 设计**:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过**共享权重网络**映射回离散 token。 ### 核心设计 1. **Flow Matching 框架**:采用连续时间 [[rectified-flows]](线性插值路径:z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。 2. **x-prediction 参数化**:网络直接预测干净的嵌入 x̂(而非速度 v),使去噪(MSE)和解码(CE)两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。 3. **共享权重离散化(Shared-Weight Discretization)**:单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作: - **Denoise mode (t<1)**:MSE loss,预测干净嵌入 - **Decode mode (t=1)**:CE loss,经 unembedding 层输出离散 token 无需额外 decoder。参考 [[shared-weight-discretization]]。 4. **Classifier-Free Guidance**:由于 ELF 全程在连续空间操作,CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。 5. **ODE/SDE 采样器**:支持 ODE(欧拉求解器)和 SDE 启发式采样(每步注入小噪声)。参考 [[sde-sampler-language]]。 ### 训练流程 - 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d - 去噪分支(80% 批次):随机采样 t,线性插值构造 z_t,MSE 训练 - 解码分支(20% 批次):t=1,对 z 加 token 级 corruption,CE 训练 ## 关键发现 1. **105M ELF-B 超越 170M 基线**(MDLM, Duo, FLM, LangFlow),训练 token 仅 10% 2. **32 步采样**即可达到基线 1024 步的质量,Gen. PPL 大幅降低 3. 无需蒸馏即可与蒸馏版基线竞争 4. 在机器翻译(WMT14 De-En)和摘要(XSum)任务上也达到最优 5. CFG 配合自条件化显著提升无条件生成质量 6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差 ## 概念网络 核心概念:[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]] 支撑技术:[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]] 评估指标:[[generative-perplexity]] ## 意义 ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督)就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术(CFG、蒸馏、高效采样)的直通道。