Files
myWiki/concepts/x-prediction-parameterization.md

54 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "x-Prediction Parameterization"
created: 2026-05-13
updated: 2026-05-13
type: concept
tags: [flow-matching, diffusion, parameterization]
sources:
- https://arxiv.org/abs/2605.10938
---
# x-Prediction Parameterization
在 [[flow-matching|Flow Matching]] 中x-prediction 是指**网络直接预测干净数据 x̂ 而非速度 v̂** 的参数化选择。
## 数学关系
给定 z_t = t·x + (1-t)·ε,真实速度为 v = x - ε。
速度预测 v̂ 和 x-prediction 的关系:
```
v̂ = (x̂ - z_t) / (1-t)
```
因此 MSE 等价:
```
||v̂ - v||² = ||x̂ - x||² / (1-t)²
```
即训练 x-prediction 最小化 MSE 等价于训练速度预测,但用了不同的权重缩放。
## 为什么 ELF 必须用 x-prediction
ELF 的 [[shared-weight-discretization]] 设计依赖 x-prediction
1. **Denoise mode**:网络预测 x̂转换为 v̂ 计算 MSE loss
2. **Decode mode**:网络预测 x̂经 unembedding 层转为 token logits计算 CE loss
两种模式都预测「干净嵌入 x̂」语义一致——使得权重共享有意义。
**v-prediction 不可行**:预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。
## 历史背景
x-prediction 在图像生成中已有先例(如 MDT、SiT但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性(高维嵌入空间),更是**架构层面的语义统一**。
## 相关概念
- [[flow-matching]] — 基础框架
- [[shared-weight-discretization]] — x-prediction 使此设计可行的原因
- [[embedded-language-flows]] — 使用 x-prediction 的模型
- [[rectified-flows]] — 配合 x-prediction 的插值路径