myWiki/concepts/reward-hacking-llm.md

---
title: LLM 奖励黑客 (Reward Hacking in LLMs)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---

# LLM 奖励黑客 (Reward Hacking in LLMs)

**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象，在 [[unsupervised-rlvr|URLVR]] 中尤其突出。

## 在 URLVR 中的特殊表现

不同于标准 RLVR（奖励来自 ground truth），URLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险：

1. 模型学会生成让内在奖励高的输出
2. 但这些输出并非真实正确
3. 训练信号强化了这一模式
4. → **模型崩溃 (Model Collapse)**

## 崩溃模式

- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案
- **多样性丧失**: 锐化机制消灭探索所需的多样性
- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速

## 与 Sharpening 的关系

[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免：当模型错位时，锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。

## 缓解方向

- [[self-verification-rewards|外部验证奖励]]（绕过自我循环）
- 验证与生成的解耦
- 熵正则化惩罚

## 相关概念

- [[intrinsic-rewards-sharpening]] — 理论根源
- [[model-collapse-step]] — 崩溃时机度量
- [[unsupervised-rlvr]] — URLVR 全景
- [[he-urlvr-sharpening-2026]] — 综述参考