SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

2.3 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Embedded Language Flows (ELF)

2026-05-13

2026-05-13

concept

diffusion-language-model

flow-matching

continuous-embeddings

language-generation

https://arxiv.org/abs/2605.10938

Embedded Language Flows (ELF)

ELF 是一类基于 flow-matching 的continuous-diffusion-language-models，核心思想是在连续嵌入空间中完成几乎所有去噪过程，仅在最后一步将嵌入映射回离散 token。

核心设计

两阶段操作

阶段	时间步	模式	损失	输出
去噪	t ∈ [0,1)	denoise	MSE (v_pred vs v)	干净嵌入 x̂
解码	t = 1	decode	Cross-Entropy	离散 token

两种模式通过二进制 mode token 切换，但共享同一网络权重——这是 ELF 区别于其他连续 DLM 的关键。详细机制见 shared-weight-discretization。

与其他方法的对比

vs 离散 DLM（MDLM, Duo）：ELF 在连续空间操作，可自然使用 CFG 等连续域成熟技术
vs 其他连续 DLM（Diffusion-LM, CDCD）：ELF 不在中间步骤施加 token 级 CE 监督，保持去噪轨迹的连续性
vs 潜在扩散方法（LD4LG）：ELF 无需单独 decoder，利用 Flow Matching 的最后一步自然完成解码

为什么连续空间有帮助

Flow Matching 稳定性：在高维嵌入空间（768-d per token）中，x-prediction 配合 rectified-flows 比 v-prediction 更稳定
CFG 自然兼容：CFG 原本为连续量设计（score/velocity），在连续空间中可直接应用；离散空间中的 CFG 效果存疑
成熟技术的迁移：训练时 CFG、蒸馏、高效采样器可直接从图像域迁移

关键结果

105M ELF 超越 170M 离散/连续基线（MDLM, Duo, FLM, LangFlow）
32 步采样即可达到基线 1024 步的质量
10× 更少的训练 token

相关页面

论文：elf-embedded-language-flows
框架：flow-matching · continuous-diffusion-language-models
关键技术：shared-weight-discretization · x-prediction-parameterization
增强技术：classifier-free-guidance-language · self-conditioning · sde-sampler-language
基础：rectified-flows