20260514:增加新内容
This commit is contained in:
53
concepts/x-prediction-parameterization.md
Normal file
53
concepts/x-prediction-parameterization.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "x-Prediction Parameterization"
|
||||
created: 2026-05-13
|
||||
updated: 2026-05-13
|
||||
type: concept
|
||||
tags: [flow-matching, diffusion, parameterization]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2605.10938
|
||||
---
|
||||
|
||||
# x-Prediction Parameterization
|
||||
|
||||
在 [[flow-matching|Flow Matching]] 中,x-prediction 是指**网络直接预测干净数据 x̂ 而非速度 v̂** 的参数化选择。
|
||||
|
||||
## 数学关系
|
||||
|
||||
给定 z_t = t·x + (1-t)·ε,真实速度为 v = x - ε。
|
||||
|
||||
速度预测 v̂ 和 x-prediction 的关系:
|
||||
|
||||
```
|
||||
v̂ = (x̂ - z_t) / (1-t)
|
||||
```
|
||||
|
||||
因此 MSE 等价:
|
||||
|
||||
```
|
||||
||v̂ - v||² = ||x̂ - x||² / (1-t)²
|
||||
```
|
||||
|
||||
即训练 x-prediction 最小化 MSE 等价于训练速度预测,但用了不同的权重缩放。
|
||||
|
||||
## 为什么 ELF 必须用 x-prediction
|
||||
|
||||
ELF 的 [[shared-weight-discretization]] 设计依赖 x-prediction:
|
||||
|
||||
1. **Denoise mode**:网络预测 x̂,转换为 v̂ 计算 MSE loss
|
||||
2. **Decode mode**:网络预测 x̂,经 unembedding 层转为 token logits,计算 CE loss
|
||||
|
||||
两种模式都预测「干净嵌入 x̂」,语义一致——使得权重共享有意义。
|
||||
|
||||
**v-prediction 不可行**:预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。
|
||||
|
||||
## 历史背景
|
||||
|
||||
x-prediction 在图像生成中已有先例(如 MDT、SiT),但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性(高维嵌入空间),更是**架构层面的语义统一**。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[flow-matching]] — 基础框架
|
||||
- [[shared-weight-discretization]] — x-prediction 使此设计可行的原因
|
||||
- [[embedded-language-flows]] — 使用 x-prediction 的模型
|
||||
- [[rectified-flows]] — 配合 x-prediction 的插值路径
|
||||
Reference in New Issue
Block a user