20260625:很多新内容
This commit is contained in:
57
concepts/foundation-model-frontier-bias.md
Normal file
57
concepts/foundation-model-frontier-bias.md
Normal file
@@ -0,0 +1,57 @@
|
||||
---
|
||||
title: "基础模型前沿偏倚(Foundation Model Frontier Bias)"
|
||||
created: 2026-06-21
|
||||
updated: 2026-06-21
|
||||
type: concept
|
||||
tags:
|
||||
- foundation-models
|
||||
- bias
|
||||
- scientific-discovery
|
||||
- knowledge-frontier
|
||||
sources:
|
||||
- Jordan, MLST 2026
|
||||
---
|
||||
|
||||
# 基础模型前沿偏倚(Foundation Model Frontier Bias)
|
||||
|
||||
Michael I. Jordan 揭示的基础模型系统性问题:**模型在知识边界(科学家最需要它的地方)表现最差、偏倚最大**——因为那里训练数据最稀少。这是一个**不会随数据增多自动消失**的结构性矛盾。
|
||||
|
||||
## 机制
|
||||
|
||||
```
|
||||
已知领域:训练数据丰富 → 模型表现好 → 但科学家不感兴趣
|
||||
↓
|
||||
知识边界:训练数据稀少 → 模型偏倚大 → 科学家最需要的地方
|
||||
```
|
||||
|
||||
科学发现的本质是**问新问题**——而新问题永远在训练分布的尾部或外部。
|
||||
|
||||
## AlphaFold 案例
|
||||
|
||||
研究假设:蛋白质量子涨落是否与磷酸化关联?
|
||||
- AlphaFold 预测的置信区间**极窄**(看起来很有把握)
|
||||
- 但**完全偏离真实值**(不覆盖 truth)
|
||||
- 原因:含量子涨落特征的蛋白质在训练集中本就稀少
|
||||
- 危险:模型答错了却不说——窄置信区间制造虚假可信度
|
||||
|
||||
## 两种错误反应
|
||||
|
||||
| 立场 | 问题 |
|
||||
|------|------|
|
||||
| "偏差会随数据增多消失" | 不会——新问题永远在边界 |
|
||||
| 只批评不给方案 | 建设性为零 |
|
||||
|
||||
## 解法方向
|
||||
|
||||
[[prediction-driven-inference|预测驱动推断]]:混合少量真实标注 + 大量模型预测,让置信区间重新覆盖真实值。
|
||||
|
||||
## 与相关概念的区别
|
||||
|
||||
- vs standard ML bias:不是训练/测试分布偏移——这是**科学发现固有的边界效应**
|
||||
- vs [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]:沉默螺旋是生成同质化,前沿偏倚是**科学推断的精度丧失**——前者关注信息多样性,后者关注推断可靠性
|
||||
|
||||
## 参考
|
||||
|
||||
- [[prediction-driven-inference|预测驱动推断]]
|
||||
- [[uncertainty-taxonomy|不确定性分类法]]
|
||||
- [[michael-jordan-mlst-collectivist-ai-2026|Jordan MLST 访谈]]
|
||||
Reference in New Issue
Block a user