SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

预训练统计偏好（Pretraining Statistical Bias）

2026-06-21

2026-06-21

concept

pretraining

llm

spiral-of-silence

data-distribution

data派THU 2026

预训练统计偏好（Pretraining Statistical Bias）

大模型沉默螺旋的底层基础——四大技术根源之首。

机制

预训练数据中主流观点占绝对数量优势，模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点，模型表现为系统性"沉默"——它们虽然在训练数据中存在，但概率权重远不足以在常规采样温度下被选中。

与大模型沉默螺旋的关系

预训练统计偏好是沉默螺旋的必要条件：

没有统计偏好，context-anchoring和 rlhf-alignment-amplification 的叠加效应将失去基础
小模型参数容量有限，统计偏好更显著 → 沉默螺旋效应更强
中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出

缓解方向

训练数据分布均衡化
检索增强时调高人类原创内容权重
推理阶段提高 temperature-sampling

参考