20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/prediction-driven-inference.md
+++ b/concepts/prediction-driven-inference.md
@@ -0,0 +1,56 @@
+---
+title: "预测驱动推断（Prediction-Driven Inference）"
+created: 2026-06-21
+updated: 2026-06-21
+type: concept
+tags:
+  - inference
+  - foundation-models
+  - alphafold
+  - bias-correction
+sources:
+  - Jordan, MLST 2026
+---
+
+# 预测驱动推断（Prediction-Driven Inference）
+
+Michael I. Jordan 团队提出的统计方法，用于纠正基础模型在知识边界上的系统性偏倚。核心思想：**混合少量真实标注数据与大量模型预测，使置信区间在保持窄的同时重新覆盖真实值**。
+
+## 问题背景
+
+以 AlphaFold 为例：要检验"蛋白质量子涨落是否与磷酸化关联"——2×2 统计检验：
+- 传统晶体结构数据：样本量太小，不足以拒绝原假设
+- AlphaFold 预测的 2 亿个结构：功效大幅提升，原假设被拒绝 ← 看起来是好事
+- **但**：置信区间极窄且完全偏离真实值——因为训练集中含量子涨落特征的蛋白质本就稀少
+
+问题本质：**不是模型答错了，而是模型答错了却不说**。置信区间窄（看起来很有把握），但不覆盖真实值。
+
+## 方法
+
+把少量真实标注数据（ground truth）与大量基础模型预测数据**联合建模**，调整置信区间的覆盖范围，使其在保持有效统计功效的同时**重新覆盖真实值**。
+
+## 根本矛盾：前沿偏倚
+
+基础模型最危险的地方恰恰是科学家最需要它的地方——[[foundation-model-frontier-bias|基础模型前沿偏倚]]：
+- 科学家永远问知识边界上的新问题
+- 基础模型在知识边界训练数据最稀少 → 偏倚最大
+- 数据增多只改善已知领域，下一个新问题同样会触发偏倚
+
+「这个矛盾不会随着数据增多自动消失。」
+
+## 错误反应（Jordan 的批评）
+
+- ❌ "偏差会随着数据增多而消失"——不会，因为新问题永远在边界
+- ❌ 只批评架构/输出，不给科学方法——"那些人在说什么？他们在批评，但没有给出出路"
+- ✅ 在任何基础模型周围建立**收集少量真实数据、融合、给出可信答案**的能力
+
+## 学术溯源
+
+正式名称为 **Prediction-Powered Inference (PPI)**，由 Angelopoulos, Bates, Fannjiang, Jordan & Zrnic 发表于 *Science* 383 (2023), 669–674。
+
+## 参考
+
+- [[jordan-collectivist-ai-2025|Jordan 论文 §4.3]]
+- [[foundation-model-frontier-bias|基础模型前沿偏倚]]
+- [[uncertainty-taxonomy|不确定性分类法]]
+- [[collectivist-ai|集体主义 AI]]