20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/foundation-model-frontier-bias.md
+++ b/concepts/foundation-model-frontier-bias.md
@@ -0,0 +1,57 @@
+---
+title: "基础模型前沿偏倚（Foundation Model Frontier Bias）"
+created: 2026-06-21
+updated: 2026-06-21
+type: concept
+tags:
+  - foundation-models
+  - bias
+  - scientific-discovery
+  - knowledge-frontier
+sources:
+  - Jordan, MLST 2026
+---
+
+# 基础模型前沿偏倚（Foundation Model Frontier Bias）
+
+Michael I. Jordan 揭示的基础模型系统性问题：**模型在知识边界（科学家最需要它的地方）表现最差、偏倚最大**——因为那里训练数据最稀少。这是一个**不会随数据增多自动消失**的结构性矛盾。
+
+## 机制
+
+```
+已知领域：训练数据丰富 → 模型表现好 → 但科学家不感兴趣
+                                    ↓
+知识边界：训练数据稀少 → 模型偏倚大 → 科学家最需要的地方
+```
+
+科学发现的本质是**问新问题**——而新问题永远在训练分布的尾部或外部。
+
+## AlphaFold 案例
+
+研究假设：蛋白质量子涨落是否与磷酸化关联？
+- AlphaFold 预测的置信区间**极窄**（看起来很有把握）
+- 但**完全偏离真实值**（不覆盖 truth）
+- 原因：含量子涨落特征的蛋白质在训练集中本就稀少
+- 危险：模型答错了却不说——窄置信区间制造虚假可信度
+
+## 两种错误反应
+
+| 立场 | 问题 |
+|------|------|
+| "偏差会随数据增多消失" | 不会——新问题永远在边界 |
+| 只批评不给方案 | 建设性为零 |
+
+## 解法方向
+
+[[prediction-driven-inference|预测驱动推断]]：混合少量真实标注 + 大量模型预测，让置信区间重新覆盖真实值。
+
+## 与相关概念的区别
+
+- vs standard ML bias：不是训练/测试分布偏移——这是**科学发现固有的边界效应**
+- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]：沉默螺旋是生成同质化，前沿偏倚是**科学推断的精度丧失**——前者关注信息多样性，后者关注推断可靠性
+
+## 参考
+
+- [[prediction-driven-inference|预测驱动推断]]
+- [[uncertainty-taxonomy|不确定性分类法]]
+- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]