--- title: LLM 奖励黑客 (Reward Hacking in LLMs) created: 2025-04-15 updated: 2026-05-01 type: concept tags: [] sources: [] --- # LLM 奖励黑客 (Reward Hacking in LLMs) **RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象,在 [[unsupervised-rlvr|URLVR]] 中尤其突出。 ## 在 URLVR 中的特殊表现 不同于标准 RLVR(奖励来自 ground truth),URLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险: 1. 模型学会生成让内在奖励高的输出 2. 但这些输出并非真实正确 3. 训练信号强化了这一模式 4. → **模型崩溃 (Model Collapse)** ## 崩溃模式 - **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案 - **多样性丧失**: 锐化机制消灭探索所需的多样性 - **自我强化**: 错误的奖励信号驱动模型在错误方向上加速 ## 与 Sharpening 的关系 [[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。 ## 缓解方向 - [[self-verification-rewards|外部验证奖励]](绕过自我循环) - 验证与生成的解耦 - 熵正则化惩罚 ## 相关概念 - [[intrinsic-rewards-sharpening]] — 理论根源 - [[model-collapse-step]] — 崩溃时机度量 - [[unsupervised-rlvr]] — URLVR 全景 - [[he-urlvr-sharpening-2026]] — 综述参考