Files
myWiki/concepts/embedded-language-flows.md

2.3 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Embedded Language Flows (ELF) 2026-05-13 2026-05-13 concept
diffusion-language-model
flow-matching
continuous-embeddings
language-generation
https://arxiv.org/abs/2605.10938

Embedded Language Flows (ELF)

ELF 是一类基于 flow-matchingcontinuous-diffusion-language-models,核心思想是在连续嵌入空间中完成几乎所有去噪过程,仅在最后一步将嵌入映射回离散 token

核心设计

两阶段操作

阶段 时间步 模式 损失 输出
去噪 t ∈ [0,1) denoise MSE (v_pred vs v) 干净嵌入 x̂
解码 t = 1 decode Cross-Entropy 离散 token

两种模式通过二进制 mode token 切换,但共享同一网络权重——这是 ELF 区别于其他连续 DLM 的关键。详细机制见 shared-weight-discretization

与其他方法的对比

  • vs 离散 DLMMDLM, DuoELF 在连续空间操作,可自然使用 CFG 等连续域成熟技术
  • vs 其他连续 DLMDiffusion-LM, CDCDELF 不在中间步骤施加 token 级 CE 监督,保持去噪轨迹的连续性
  • vs 潜在扩散方法LD4LGELF 无需单独 decoder利用 Flow Matching 的最后一步自然完成解码

为什么连续空间有帮助

  1. Flow Matching 稳定性在高维嵌入空间768-d per tokenx-prediction 配合 rectified-flows 比 v-prediction 更稳定
  2. CFG 自然兼容CFG 原本为连续量设计score/velocity在连续空间中可直接应用离散空间中的 CFG 效果存疑
  3. 成熟技术的迁移:训练时 CFG、蒸馏、高效采样器可直接从图像域迁移

关键结果

  • 105M ELF 超越 170M 离散/连续基线MDLM, Duo, FLM, LangFlow
  • 32 步采样即可达到基线 1024 步的质量
  • 10× 更少的训练 token

相关页面