Files
myWiki/papers/elf-embedded-language-flows.md

3.6 KiB
Raw Permalink Blame History

title, created, updated, type, arxiv, authors, venue, tags, sources
title created updated type arxiv authors venue tags sources
ELF: Embedded Language Flows 2026-05-13 2026-05-13 paper 2605.10938
Keya Hu
Linlu Qiu
Yiyang Lu
Hanhong Zhao
Tianhong Li
Yoon Kim
Jacob Andreas
Kaiming He
Tech Report (2026)
diffusion-language-model
flow-matching
continuous-embeddings
language-generation
https://arxiv.org/abs/2605.10938
https://github.com/lillian039/ELF

ELF: Embedded Language Flows

MIT | 2026 | arXiv:2605.10938

Keya Hu*, Linlu Qiu*, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

核心问题

连续扩散语言模型DLM能否达到与离散 DLM 相当甚至更优的性能?当前领先的 DLM 主要在离散 token 空间操作,但这是语言建模的固有特性还是算法设计选择的问题?

方法

ELF 提出了一种极简连续 DLM 设计:在整个去噪过程中保持在连续嵌入空间,仅在最后一步通过共享权重网络映射回离散 token。

核心设计

  1. Flow Matching 框架:采用连续时间 rectified-flows线性插值路径z_t = t·x + (1-t)·ε),在连续嵌入空间中定义速度场。

  2. x-prediction 参数化:网络直接预测干净的嵌入 x̂而非速度 v使去噪MSE和解码CE两种训练目标共享同一网络权重。参考 x-prediction-parameterization

  3. 共享权重离散化Shared-Weight Discretization:单个网络 net_θ(z, t, mode) 通过二进制 mode token 区分两种操作:

    • Denoise mode (t<1)MSE loss预测干净嵌入
    • Decode mode (t=1)CE loss经 unembedding 层输出离散 token

    无需额外 decoder。参考 shared-weight-discretization

  4. Classifier-Free Guidance:由于 ELF 全程在连续空间操作CFG 可以自然适用。结合 self-conditioning 构造条件信号,使用训练时 CFG 避免推理时双倍前向开销。参考 classifier-free-guidance-language

  5. ODE/SDE 采样器:支持 ODE欧拉求解器和 SDE 启发式采样(每步注入小噪声)。参考 sde-sampler-language

训练流程

  • 编码:冻结的预训练 T5-small encoder 将 token 序列映射到 512-d 嵌入空间,经 bottleneck 压缩到 128-d
  • 去噪分支80% 批次):随机采样 t线性插值构造 z_tMSE 训练
  • 解码分支20% 批次t=1对 z 加 token 级 corruptionCE 训练

关键发现

  1. 105M ELF-B 超越 170M 基线MDLM, Duo, FLM, LangFlow训练 token 仅 10%
  2. 32 步采样即可达到基线 1024 步的质量Gen. PPL 大幅降低
  3. 无需蒸馏即可与蒸馏版基线竞争
  4. 在机器翻译WMT14 De-En和摘要XSum任务上也达到最优
  5. CFG 配合自条件化显著提升无条件生成质量
  6. x-prediction 是实现共享权重的关键——v-prediction 在此场景下效果差

概念网络

核心概念:embedded-language-flowsflow-matching + continuous-diffusion-language-modelsshared-weight-discretization

支撑技术:rectified-flows · x-prediction-parameterization · self-conditioning · classifier-free-guidance-language · sde-sampler-language

评估指标:generative-perplexity

意义

ELF 证明连续 DLM 的「性能差距」源于算法设计而非语言本质——用极简设计(无额外 decoder、无逐步 CE 监督就能达到甚至超越离散方法。这为扩散语言模型开辟了通向图像域成熟技术CFG、蒸馏、高效采样的直通道。