Files
myWiki/concepts/rlhf-alignment-amplification.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
RLHF 对齐放大RLHF Alignment Amplification 2026-06-21 2026-06-21 concept
rlhf
alignment
spiral-of-silence
entropy
arXiv 2024 (Creativity Has Left the Chat)

RLHF 对齐放大RLHF Alignment Amplification

大模型沉默螺旋的固化诱因——四大技术根源之四,也是最具争议的一项。

机制

RLHF 对齐训练(rlhf)为了规避风险、统一输出范式,会主动压低模型 token 预测熵值

  • 压缩创作空间与表达自由度
  • 让输出高度收敛于"主流、安全、标准化"的表达范式
  • 主动规避小众视角、差异化观点与创新性内容

悖论

RLHF 对齐的初衷是使模型更安全、更有用,但其副作用是从训练层面直接固化内容同质化缺陷,大幅放大沉默螺旋效应。这是一种"安全 vs 多元"的内在张力

  • 更安全的对齐 → 更低的输出熵 → 更严重的沉默螺旋
  • 更高的输出多样性 → 更多不安全输出风险

实验证据

arXiv 2024 (Creativity Has Left the Chat) 证实去偏训练显著降低了输出的创造性和多样性。对齐后的模型在开放性问答中表现出更高的一致性和更低的观点方差。

参考