Files
myWiki/concepts/pretraining-statistical-bias.md

40 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "预训练统计偏好Pretraining Statistical Bias"
created: 2026-06-21
updated: 2026-06-21
type: concept
tags:
- pretraining
- llm
- spiral-of-silence
- data-distribution
sources:
- data派THU 2026
---
# 预训练统计偏好Pretraining Statistical Bias
大模型沉默螺旋的**底层基础**——四大技术根源之首。
## 机制
预训练数据中主流观点占**绝对数量优势**,模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点,模型表现为系统性"沉默"——它们虽然在训练数据中存在,但概率权重远不足以在常规采样温度下被选中。
## 与大模型沉默螺旋的关系
预训练统计偏好是沉默螺旋的**必要条件**
- 没有统计偏好,[[context-anchoring|上下文锚定]]和 [[rlhf-alignment-amplification|RLHF 对齐放大]] 的叠加效应将失去基础
- 小模型参数容量有限,统计偏好更显著 → 沉默螺旋效应更强
- 中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出
## 缓解方向
- 训练数据分布均衡化
- 检索增强时调高人类原创内容权重
- 推理阶段提高 [[temperature-sampling|温度采样]]
## 参考
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
- [[content-homogenization|内容同质化]]