20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/x-prediction-parameterization.md
+++ b/concepts/x-prediction-parameterization.md
@@ -0,0 +1,53 @@
+---
+title: "x-Prediction Parameterization"
+created: 2026-05-13
+updated: 2026-05-13
+type: concept
+tags: [flow-matching, diffusion, parameterization]
+sources:
+  - https://arxiv.org/abs/2605.10938
+---
+
+# x-Prediction Parameterization
+
+在 [[flow-matching|Flow Matching]] 中，x-prediction 是指**网络直接预测干净数据 x̂ 而非速度 v̂** 的参数化选择。
+
+## 数学关系
+
+给定 z_t = t·x + (1-t)·ε，真实速度为 v = x - ε。
+
+速度预测 v̂ 和 x-prediction 的关系：
+
+```
+v̂ = (x̂ - z_t) / (1-t)
+```
+
+因此 MSE 等价：
+
+```
+||v̂ - v||² = ||x̂ - x||² / (1-t)²
+```
+
+即训练 x-prediction 最小化 MSE 等价于训练速度预测，但用了不同的权重缩放。
+
+## 为什么 ELF 必须用 x-prediction
+
+ELF 的 [[shared-weight-discretization]] 设计依赖 x-prediction：
+
+1. **Denoise mode**：网络预测 x̂，转换为 v̂ 计算 MSE loss
+2. **Decode mode**：网络预测 x̂，经 unembedding 层转为 token logits，计算 CE loss
+
+两种模式都预测「干净嵌入 x̂」，语义一致——使得权重共享有意义。
+
+**v-prediction 不可行**：预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。
+
+## 历史背景
+
+x-prediction 在图像生成中已有先例（如 MDT、SiT），但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性（高维嵌入空间），更是**架构层面的语义统一**。
+
+## 相关概念
+
+- [[flow-matching]] — 基础框架
+- [[shared-weight-discretization]] — x-prediction 使此设计可行的原因
+- [[embedded-language-flows]] — 使用 x-prediction 的模型
+- [[rectified-flows]] — 配合 x-prediction 的插值路径