20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/pretraining-statistical-bias.md
+++ b/concepts/pretraining-statistical-bias.md
@@ -0,0 +1,39 @@
+---
+title: "预训练统计偏好（Pretraining Statistical Bias）"
+created: 2026-06-21
+updated: 2026-06-21
+type: concept
+tags:
+  - pretraining
+  - llm
+  - spiral-of-silence
+  - data-distribution
+sources:
+  - data派THU 2026
+---
+
+# 预训练统计偏好（Pretraining Statistical Bias）
+
+大模型沉默螺旋的**底层基础**——四大技术根源之首。
+
+## 机制
+
+预训练数据中主流观点占**绝对数量优势**，模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点，模型表现为系统性"沉默"——它们虽然在训练数据中存在，但概率权重远不足以在常规采样温度下被选中。
+
+## 与大模型沉默螺旋的关系
+
+预训练统计偏好是沉默螺旋的**必要条件**：
+- 没有统计偏好，[[context-anchoring|上下文锚定]]和 [[rlhf-alignment-amplification|RLHF 对齐放大]] 的叠加效应将失去基础
+- 小模型参数容量有限，统计偏好更显著 → 沉默螺旋效应更强
+- 中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出
+
+## 缓解方向
+
+- 训练数据分布均衡化
+- 检索增强时调高人类原创内容权重
+- 推理阶段提高 [[temperature-sampling|温度采样]]
+
+## 参考
+
+- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
+- [[content-homogenization|内容同质化]]