Files
myWiki/concepts/reward-hacking-llm.md

1.5 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
LLM 奖励黑客 (Reward Hacking in LLMs) 2025-04-15 2026-05-01 concept

LLM 奖励黑客 (Reward Hacking in LLMs)

RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分的现象,在 unsupervised-rlvr 中尤其突出。

在 URLVR 中的特殊表现

不同于标准 RLVR奖励来自 ground truthURLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险:

  1. 模型学会生成让内在奖励高的输出
  2. 但这些输出并非真实正确
  3. 训练信号强化了这一模式
  4. 模型崩溃 (Model Collapse)

崩溃模式

  • 熵崩溃: 模型输出分布坍缩到极少数高置信但可能错误的答案
  • 多样性丧失: 锐化机制消灭探索所需的多样性
  • 自我强化: 错误的奖励信号驱动模型在错误方向上加速

与 Sharpening 的关系

intrinsic-rewards-sharpening 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。

缓解方向

相关概念