41 lines
1.4 KiB
Markdown
41 lines
1.4 KiB
Markdown
---
|
||
title: "RLHF 对齐放大(RLHF Alignment Amplification)"
|
||
created: 2026-06-21
|
||
updated: 2026-06-21
|
||
type: concept
|
||
tags:
|
||
- rlhf
|
||
- alignment
|
||
- spiral-of-silence
|
||
- entropy
|
||
sources:
|
||
- arXiv 2024 (Creativity Has Left the Chat)
|
||
---
|
||
|
||
# RLHF 对齐放大(RLHF Alignment Amplification)
|
||
|
||
大模型沉默螺旋的**固化诱因**——四大技术根源之四,也是最具争议的一项。
|
||
|
||
## 机制
|
||
|
||
RLHF 对齐训练([[rlhf|RLHF]])为了规避风险、统一输出范式,会主动**压低模型 token 预测熵值**:
|
||
- 压缩创作空间与表达自由度
|
||
- 让输出高度收敛于"主流、安全、标准化"的表达范式
|
||
- 主动规避小众视角、差异化观点与创新性内容
|
||
|
||
## 悖论
|
||
|
||
RLHF 对齐的初衷是使模型更安全、更有用,但其副作用是**从训练层面直接固化内容同质化缺陷**,大幅放大沉默螺旋效应。这是一种"安全 vs 多元"的**内在张力**:
|
||
- 更安全的对齐 → 更低的输出熵 → 更严重的沉默螺旋
|
||
- 更高的输出多样性 → 更多不安全输出风险
|
||
|
||
## 实验证据
|
||
|
||
arXiv 2024 (Creativity Has Left the Chat) 证实去偏训练显著降低了输出的创造性和多样性。对齐后的模型在开放性问答中表现出更高的一致性和更低的观点方差。
|
||
|
||
## 参考
|
||
|
||
- [[content-homogenization|内容同质化]]
|
||
- [[pretraining-statistical-bias|预训练统计偏好]]
|
||
- [[llm-spiral-of-silence-2026|LLM 沉默螺旋]]
|