x-Prediction Parameterization

在 flow-matching 中，x-prediction 是指网络直接预测干净数据 x̂ 而非速度 v̂ 的参数化选择。

数学关系

给定 z_t = t·x + (1-t)·ε，真实速度为 v = x - ε。

速度预测 v̂ 和 x-prediction 的关系：

v̂ = (x̂ - z_t) / (1-t)

因此 MSE 等价：

||v̂ - v||² = ||x̂ - x||² / (1-t)²

即训练 x-prediction 最小化 MSE 等价于训练速度预测，但用了不同的权重缩放。

ELF 的 shared-weight-discretization 设计依赖 x-prediction：

两种模式都预测「干净嵌入 x̂」，语义一致——使得权重共享有意义。

v-prediction 不可行：预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。

x-prediction 在图像生成中已有先例（如 MDT、SiT），但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性（高维嵌入空间），更是架构层面的语义统一。