Files
myWiki/concepts/prediction-driven-inference.md

57 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "预测驱动推断Prediction-Driven Inference"
created: 2026-06-21
updated: 2026-06-21
type: concept
tags:
- inference
- foundation-models
- alphafold
- bias-correction
sources:
- Jordan, MLST 2026
---
# 预测驱动推断Prediction-Driven Inference
Michael I. Jordan 团队提出的统计方法,用于纠正基础模型在知识边界上的系统性偏倚。核心思想:**混合少量真实标注数据与大量模型预测,使置信区间在保持窄的同时重新覆盖真实值**。
## 问题背景
以 AlphaFold 为例:要检验"蛋白质量子涨落是否与磷酸化关联"——2×2 统计检验:
- 传统晶体结构数据:样本量太小,不足以拒绝原假设
- AlphaFold 预测的 2 亿个结构:功效大幅提升,原假设被拒绝 ← 看起来是好事
- **但**:置信区间极窄且完全偏离真实值——因为训练集中含量子涨落特征的蛋白质本就稀少
问题本质:**不是模型答错了,而是模型答错了却不说**。置信区间窄(看起来很有把握),但不覆盖真实值。
## 方法
把少量真实标注数据ground truth与大量基础模型预测数据**联合建模**,调整置信区间的覆盖范围,使其在保持有效统计功效的同时**重新覆盖真实值**。
## 根本矛盾:前沿偏倚
基础模型最危险的地方恰恰是科学家最需要它的地方——[[foundation-model-frontier-bias|基础模型前沿偏倚]]
- 科学家永远问知识边界上的新问题
- 基础模型在知识边界训练数据最稀少 → 偏倚最大
- 数据增多只改善已知领域,下一个新问题同样会触发偏倚
「这个矛盾不会随着数据增多自动消失。」
## 错误反应Jordan 的批评)
- ❌ "偏差会随着数据增多而消失"——不会,因为新问题永远在边界
- ❌ 只批评架构/输出,不给科学方法——"那些人在说什么?他们在批评,但没有给出出路"
- ✅ 在任何基础模型周围建立**收集少量真实数据、融合、给出可信答案**的能力
## 学术溯源
正式名称为 **Prediction-Powered Inference (PPI)**,由 Angelopoulos, Bates, Fannjiang, Jordan & Zrnic 发表于 *Science* 383 (2023), 669674。
## 参考
- [[jordan-collectivist-ai-2025|Jordan 论文 §4.3]]
- [[foundation-model-frontier-bias|基础模型前沿偏倚]]
- [[uncertainty-taxonomy|不确定性分类法]]
- [[collectivist-ai|集体主义 AI]]