SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1012 B

Raw Blame History

title, created, updated, type, tags, status

title

created

updated

type

tags

status

RLHF (Reinforcement Learning from Human Feedback)

2026-06-03

2026-06-03

concept

RLHF

alignment

LLM

training

placeholder

RLHF (Reinforcement Learning from Human Feedback)

⚠️ 占位符页面 — 待完善

RLHF 是一种基于人类反馈的强化学习对齐方法，是 SFT 的主要替代/补充后训练范式。典型流程：SFT → 奖励模型训练 → PPO 优化。

与 SFT 的对比是 zhang-reconciling-sft-interaction-2026 讨论的重要背景。

沉默螺旋维度

RLHF 对齐训练为规避风险而压低 token 预测熵值，会压缩模型的创作空间——这是 rlhf-alignment-amplification 效应的核心，已被证实是 llm-spiral-of-silence-2026 的四大技术根源之一。

相关概念