20260625:很多新内容
This commit is contained in:
39
concepts/pretraining-statistical-bias.md
Normal file
39
concepts/pretraining-statistical-bias.md
Normal file
@@ -0,0 +1,39 @@
|
||||
---
|
||||
title: "预训练统计偏好(Pretraining Statistical Bias)"
|
||||
created: 2026-06-21
|
||||
updated: 2026-06-21
|
||||
type: concept
|
||||
tags:
|
||||
- pretraining
|
||||
- llm
|
||||
- spiral-of-silence
|
||||
- data-distribution
|
||||
sources:
|
||||
- data派THU 2026
|
||||
---
|
||||
|
||||
# 预训练统计偏好(Pretraining Statistical Bias)
|
||||
|
||||
大模型沉默螺旋的**底层基础**——四大技术根源之首。
|
||||
|
||||
## 机制
|
||||
|
||||
预训练数据中主流观点占**绝对数量优势**,模型在自回归训练中习得的概率分布天然偏向高频内容。对小众、创新、低概率观点,模型表现为系统性"沉默"——它们虽然在训练数据中存在,但概率权重远不足以在常规采样温度下被选中。
|
||||
|
||||
## 与大模型沉默螺旋的关系
|
||||
|
||||
预训练统计偏好是沉默螺旋的**必要条件**:
|
||||
- 没有统计偏好,[[context-anchoring|上下文锚定]]和 [[rlhf-alignment-amplification|RLHF 对齐放大]] 的叠加效应将失去基础
|
||||
- 小模型参数容量有限,统计偏好更显著 → 沉默螺旋效应更强
|
||||
- 中文训练数据的共识性语境更强 → 统计分布更集中 → 效应更突出
|
||||
|
||||
## 缓解方向
|
||||
|
||||
- 训练数据分布均衡化
|
||||
- 检索增强时调高人类原创内容权重
|
||||
- 推理阶段提高 [[temperature-sampling|温度采样]]
|
||||
|
||||
## 参考
|
||||
|
||||
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
|
||||
- [[content-homogenization|内容同质化]]
|
||||
Reference in New Issue
Block a user