56 lines
1.5 KiB
Markdown
56 lines
1.5 KiB
Markdown
---
|
||
title: "SDE Sampler for Language Diffusion"
|
||
created: 2026-05-13
|
||
updated: 2026-05-13
|
||
type: concept
|
||
tags: [sampling, diffusion-language-model, SDE, stochastic]
|
||
sources:
|
||
- https://arxiv.org/abs/2605.10938
|
||
---
|
||
|
||
# SDE Sampler for Language Diffusion
|
||
|
||
SDE 采样器是 [[embedded-language-flows|ELF]] 中除 ODE 采样外的另一种推理策略,通过在每步注入小噪声引入随机性。
|
||
|
||
## 原理
|
||
|
||
标准 Flow Matching 推理求解确定性 ODE:
|
||
|
||
```
|
||
dz_t/dt = v_θ(z_t, t)
|
||
```
|
||
|
||
SDE 采样器在每步添加随机扰动:
|
||
|
||
```
|
||
z_{t+Δt} = z_t + Δt·v_θ(z_t, t) + √(γ·Δt)·ξ, ξ ~ N(0,I)
|
||
```
|
||
|
||
同时调整时间变量 t 向噪声方向偏移,模拟真正的随机微分方程行为。
|
||
|
||
## 效果
|
||
|
||
ELF 实验中,SDE 采样器:
|
||
- 在小模型(ELF-B)上显著优于 ODE(Gen. PPL 更低)
|
||
- 在大模型(ELF-L)上 ODE 与 SDE 差距缩小
|
||
- 引入的多样性略高于 ODE(unigram entropy 略增)
|
||
|
||
## 与 ODE 的权衡
|
||
|
||
| 维度 | ODE | SDE |
|
||
|------|-----|-----|
|
||
| 确定性 | 完全确定 | 随机 |
|
||
| 质量(小模型) | 基准 | 更优 |
|
||
| 质量(大模型) | 接近 SDE | 优势缩小 |
|
||
| 可复现性 | 是 | 否(需 seed) |
|
||
|
||
## 实现
|
||
|
||
ELF 的 SDE 采样器是一个启发式近似,而非精确求解完整 SDE——参考了图像生成中的类似做法(如 Ma et al., 2024 的 SDE 推导)。
|
||
|
||
## 相关概念
|
||
|
||
- [[embedded-language-flows]] — 使用此采样器的模型
|
||
- [[flow-matching]] — 基础生成框架
|
||
- [[continuous-diffusion-language-models]] — 连续 DLM 类别
|