myWiki/papers/elf-embedded-language-flows.md

---
title: "ELF: Embedded Language Flows"
created: 2026-05-13
updated: 2026-05-13
type: paper
arxiv: "2605.10938"
authors: ["Keya Hu", "Linlu Qiu", "Yiyang Lu", "Hanhong Zhao", "Tianhong Li", "Yoon Kim", "Jacob Andreas", "Kaiming He"]
venue: "Tech Report (2026)"
tags: [diffusion-language-model, flow-matching, continuous-embeddings, language-generation]
sources:
  - https://arxiv.org/abs/2605.10938
  - https://github.com/lillian039/ELF
---

# ELF: Embedded Language Flows

**MIT | 2026 | arXiv:2605.10938**

Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, **Kaiming He**

## 核心问题

连续扩散语言模型（DLM）能否达到与离散 DLM 相当甚至更优的性能？当前领先的 DLM 主要在离散 token 空间操作，但这是语言建模的固有特性还是算法设计选择的问题？

## 方法

ELF 提出了一种**极简连续 DLM 设计**：在整个去噪过程中保持在连续嵌入空间，仅在最后一步通过**共享权重网络**映射回离散 token。

### 核心设计

1. **Flow Matching 框架**：采用连续时间 [[rectified-flows]]（线性插值路径：z_t = t·x + (1-t)·ε），在连续嵌入空间中定义速度场。

2. **x-prediction 参数化**：网络直接预测干净的嵌入 x̂（而非速度 v），使去噪（MSE）和解码（CE）两种训练目标共享同一网络权重。参考 [[x-prediction-parameterization]]。

3. **共享权重离散化（Shared-Weight Discretization）**：单个网络 `net_θ(z, t, mode)` 通过二进制 mode token 区分两种操作：
   - **Denoise mode (t<1)**：MSE loss，预测干净嵌入
   - **Decode mode (t=1)**：CE loss，经 unembedding 层输出离散 token

   无需额外 decoder。参考 [[shared-weight-discretization]]。

4. **Classifier-Free Guidance**：由于 ELF 全程在连续空间操作，CFG 可以自然适用。结合 [[self-conditioning]] 构造条件信号，使用训练时 CFG 避免推理时双倍前向开销。参考 [[classifier-free-guidance-language]]。

5. **ODE/SDE 采样器**：支持 ODE（欧拉求解器）和 SDE 启发式采样（每步注入小噪声）。参考 [[sde-sampler-language]]。

### 训练流程

- 编码：冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间，经 bottleneck 压缩到 128-d
- 去噪分支（80% 批次）：随机采样 t，线性插值构造 z_t，MSE 训练
- 解码分支（20% 批次）：t=1，对 z 加 token 级 corruption，CE 训练

## 关键发现

1. **105M ELF-B 超越 170M 基线**（MDLM, Duo, FLM, LangFlow），训练 token 仅 10%
2. **32 步采样**即可达到基线 1024 步的质量，Gen. PPL 大幅降低
3. 无需蒸馏即可与蒸馏版基线竞争
4. 在机器翻译（WMT14 De-En）和摘要（XSum）任务上也达到最优
5. CFG 配合自条件化显著提升无条件生成质量
6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差

## 概念网络

核心概念：[[embedded-language-flows]] → [[flow-matching]] + [[continuous-diffusion-language-models]] → [[shared-weight-discretization]]

支撑技术：[[rectified-flows]] · [[x-prediction-parameterization]] · [[self-conditioning]] · [[classifier-free-guidance-language]] · [[sde-sampler-language]]

评估指标：[[generative-perplexity]]

## 意义

ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计（无额外 decoder、无逐步 CE 监督）就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术（CFG、蒸馏、高效采样）的直通道。