Files
myWiki/concepts/foundation-model-frontier-bias.md

58 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "基础模型前沿偏倚Foundation Model Frontier Bias"
created: 2026-06-21
updated: 2026-06-21
type: concept
tags:
- foundation-models
- bias
- scientific-discovery
- knowledge-frontier
sources:
- Jordan, MLST 2026
---
# 基础模型前沿偏倚Foundation Model Frontier Bias
Michael I. Jordan 揭示的基础模型系统性问题:**模型在知识边界(科学家最需要它的地方)表现最差、偏倚最大**——因为那里训练数据最稀少。这是一个**不会随数据增多自动消失**的结构性矛盾。
## 机制
```
已知领域:训练数据丰富 → 模型表现好 → 但科学家不感兴趣
知识边界:训练数据稀少 → 模型偏倚大 → 科学家最需要的地方
```
科学发现的本质是**问新问题**——而新问题永远在训练分布的尾部或外部。
## AlphaFold 案例
研究假设:蛋白质量子涨落是否与磷酸化关联?
- AlphaFold 预测的置信区间**极窄**(看起来很有把握)
- 但**完全偏离真实值**(不覆盖 truth
- 原因:含量子涨落特征的蛋白质在训练集中本就稀少
- 危险:模型答错了却不说——窄置信区间制造虚假可信度
## 两种错误反应
| 立场 | 问题 |
|------|------|
| "偏差会随数据增多消失" | 不会——新问题永远在边界 |
| 只批评不给方案 | 建设性为零 |
## 解法方向
[[prediction-driven-inference|预测驱动推断]]:混合少量真实标注 + 大量模型预测,让置信区间重新覆盖真实值。
## 与相关概念的区别
- vs standard ML bias不是训练/测试分布偏移——这是**科学发现固有的边界效应**
- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]:沉默螺旋是生成同质化,前沿偏倚是**科学推断的精度丧失**——前者关注信息多样性,后者关注推断可靠性
## 参考
- [[prediction-driven-inference|预测驱动推断]]
- [[uncertainty-taxonomy|不确定性分类法]]
- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]