Files
myWiki/concepts/foundation-model-frontier-bias.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
基础模型前沿偏倚Foundation Model Frontier Bias 2026-06-21 2026-06-21 concept
foundation-models
bias
scientific-discovery
knowledge-frontier
Jordan, MLST 2026

基础模型前沿偏倚Foundation Model Frontier Bias

Michael I. Jordan 揭示的基础模型系统性问题:模型在知识边界(科学家最需要它的地方)表现最差、偏倚最大——因为那里训练数据最稀少。这是一个不会随数据增多自动消失的结构性矛盾。

机制

已知领域:训练数据丰富 → 模型表现好 → 但科学家不感兴趣
                                    ↓
知识边界:训练数据稀少 → 模型偏倚大 → 科学家最需要的地方

科学发现的本质是问新问题——而新问题永远在训练分布的尾部或外部。

AlphaFold 案例

研究假设:蛋白质量子涨落是否与磷酸化关联?

  • AlphaFold 预测的置信区间极窄(看起来很有把握)
  • 完全偏离真实值(不覆盖 truth
  • 原因:含量子涨落特征的蛋白质在训练集中本就稀少
  • 危险:模型答错了却不说——窄置信区间制造虚假可信度

两种错误反应

立场 问题
"偏差会随数据增多消失" 不会——新问题永远在边界
只批评不给方案 建设性为零

解法方向

prediction-driven-inference:混合少量真实标注 + 大量模型预测,让置信区间重新覆盖真实值。

与相关概念的区别

  • vs standard ML bias不是训练/测试分布偏移——这是科学发现固有的边界效应
  • vs llm-spiral-of-silence-2026:沉默螺旋是生成同质化,前沿偏倚是科学推断的精度丧失——前者关注信息多样性,后者关注推断可靠性

参考