2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 基础模型前沿偏倚(Foundation Model Frontier Bias) | 2026-06-21 | 2026-06-21 | concept |
|
|
基础模型前沿偏倚(Foundation Model Frontier Bias)
Michael I. Jordan 揭示的基础模型系统性问题:模型在知识边界(科学家最需要它的地方)表现最差、偏倚最大——因为那里训练数据最稀少。这是一个不会随数据增多自动消失的结构性矛盾。
机制
已知领域:训练数据丰富 → 模型表现好 → 但科学家不感兴趣
↓
知识边界:训练数据稀少 → 模型偏倚大 → 科学家最需要的地方
科学发现的本质是问新问题——而新问题永远在训练分布的尾部或外部。
AlphaFold 案例
研究假设:蛋白质量子涨落是否与磷酸化关联?
- AlphaFold 预测的置信区间极窄(看起来很有把握)
- 但完全偏离真实值(不覆盖 truth)
- 原因:含量子涨落特征的蛋白质在训练集中本就稀少
- 危险:模型答错了却不说——窄置信区间制造虚假可信度
两种错误反应
| 立场 | 问题 |
|---|---|
| "偏差会随数据增多消失" | 不会——新问题永远在边界 |
| 只批评不给方案 | 建设性为零 |
解法方向
prediction-driven-inference:混合少量真实标注 + 大量模型预测,让置信区间重新覆盖真实值。
与相关概念的区别
- vs standard ML bias:不是训练/测试分布偏移——这是科学发现固有的边界效应
- vs llm-spiral-of-silence-2026:沉默螺旋是生成同质化,前沿偏倚是科学推断的精度丧失——前者关注信息多样性,后者关注推断可靠性