Files
myWiki/concepts/x-prediction-parameterization.md

1.7 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
x-Prediction Parameterization 2026-05-13 2026-05-13 concept
flow-matching
diffusion
parameterization
https://arxiv.org/abs/2605.10938

x-Prediction Parameterization

flow-matchingx-prediction 是指网络直接预测干净数据 x̂ 而非速度 v̂ 的参数化选择。

数学关系

给定 z_t = t·x + (1-t)·ε,真实速度为 v = x - ε。

速度预测 v̂ 和 x-prediction 的关系:

v̂ = (x̂ - z_t) / (1-t)

因此 MSE 等价:

||v̂ - v||² = ||x̂ - x||² / (1-t)²

即训练 x-prediction 最小化 MSE 等价于训练速度预测,但用了不同的权重缩放。

为什么 ELF 必须用 x-prediction

ELF 的 shared-weight-discretization 设计依赖 x-prediction

  1. Denoise mode:网络预测 x̂转换为 v̂ 计算 MSE loss
  2. Decode mode:网络预测 x̂经 unembedding 层转为 token logits计算 CE loss

两种模式都预测「干净嵌入 x̂」语义一致——使得权重共享有意义。

v-prediction 不可行:预测速度 v 与预测离散 token 之间没有自然的语义桥梁。ELF 实验证实 v-prediction 配合权重共享时效果差。

历史背景

x-prediction 在图像生成中已有先例(如 MDT、SiT但在语言扩散中 ELF 首次展现其独特价值——不仅是数值稳定性(高维嵌入空间),更是架构层面的语义统一

相关概念