Files
myWiki/concepts/reward-hacking-llm.md

45 lines
1.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: LLM 奖励黑客 (Reward Hacking in LLMs)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---
# LLM 奖励黑客 (Reward Hacking in LLMs)
**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象,在 [[unsupervised-rlvr|URLVR]] 中尤其突出。
## 在 URLVR 中的特殊表现
不同于标准 RLVR奖励来自 ground truthURLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险:
1. 模型学会生成让内在奖励高的输出
2. 但这些输出并非真实正确
3. 训练信号强化了这一模式
4.**模型崩溃 (Model Collapse)**
## 崩溃模式
- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案
- **多样性丧失**: 锐化机制消灭探索所需的多样性
- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速
## 与 Sharpening 的关系
[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。
## 缓解方向
- [[self-verification-rewards|外部验证奖励]](绕过自我循环)
- 验证与生成的解耦
- 熵正则化惩罚
## 相关概念
- [[intrinsic-rewards-sharpening]] — 理论根源
- [[model-collapse-step]] — 崩溃时机度量
- [[unsupervised-rlvr]] — URLVR 全景
- [[he-urlvr-sharpening-2026]] — 综述参考