1012 B
1012 B
title, created, updated, type, tags, status
| title | created | updated | type | tags | status | ||||
|---|---|---|---|---|---|---|---|---|---|
| RLHF (Reinforcement Learning from Human Feedback) | 2026-06-03 | 2026-06-03 | concept |
|
placeholder |
RLHF (Reinforcement Learning from Human Feedback)
⚠️ 占位符页面 — 待完善
RLHF 是一种基于人类反馈的强化学习对齐方法,是 SFT 的主要替代/补充后训练范式。典型流程:SFT → 奖励模型训练 → PPO 优化。
与 SFT 的对比是 zhang-reconciling-sft-interaction-2026 讨论的重要背景。
沉默螺旋维度
RLHF 对齐训练为规避风险而压低 token 预测熵值,会压缩模型的创作空间——这是 rlhf-alignment-amplification 效应的核心,已被证实是 llm-spiral-of-silence-2026 的四大技术根源之一。