Files
myWiki/concepts/pretraining-statistical-bias.md

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
预训练统计偏好Pretraining Statistical Bias 2026-06-21 2026-06-21 concept
pretraining
llm
spiral-of-silence
data-distribution
data派THU 2026

预训练统计偏好Pretraining Statistical Bias

大模型沉默螺旋的底层基础——四大技术根源之首。

机制

预训练数据中主流观点占绝对数量优势,模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点,模型表现为系统性"沉默"——它们虽然在训练数据中存在,但概率权重远不足以在常规采样温度下被选中。

与大模型沉默螺旋的关系

预训练统计偏好是沉默螺旋的必要条件

  • 没有统计偏好,context-anchoringrlhf-alignment-amplification 的叠加效应将失去基础
  • 小模型参数容量有限,统计偏好更显著 → 沉默螺旋效应更强
  • 中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出

缓解方向

  • 训练数据分布均衡化
  • 检索增强时调高人类原创内容权重
  • 推理阶段提高 temperature-sampling

参考