45 lines
1.5 KiB
Markdown
45 lines
1.5 KiB
Markdown
---
|
||
title: LLM 奖励黑客 (Reward Hacking in LLMs)
|
||
created: 2025-04-15
|
||
updated: 2026-05-01
|
||
type: concept
|
||
tags: []
|
||
sources: []
|
||
---
|
||
|
||
# LLM 奖励黑客 (Reward Hacking in LLMs)
|
||
|
||
**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象,在 [[unsupervised-rlvr|URLVR]] 中尤其突出。
|
||
|
||
## 在 URLVR 中的特殊表现
|
||
|
||
不同于标准 RLVR(奖励来自 ground truth),URLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险:
|
||
|
||
1. 模型学会生成让内在奖励高的输出
|
||
2. 但这些输出并非真实正确
|
||
3. 训练信号强化了这一模式
|
||
4. → **模型崩溃 (Model Collapse)**
|
||
|
||
## 崩溃模式
|
||
|
||
- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案
|
||
- **多样性丧失**: 锐化机制消灭探索所需的多样性
|
||
- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速
|
||
|
||
## 与 Sharpening 的关系
|
||
|
||
[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。
|
||
|
||
## 缓解方向
|
||
|
||
- [[self-verification-rewards|外部验证奖励]](绕过自我循环)
|
||
- 验证与生成的解耦
|
||
- 熵正则化惩罚
|
||
|
||
## 相关概念
|
||
|
||
- [[intrinsic-rewards-sharpening]] — 理论根源
|
||
- [[model-collapse-step]] — 崩溃时机度量
|
||
- [[unsupervised-rlvr]] — URLVR 全景
|
||
- [[he-urlvr-sharpening-2026]] — 综述参考
|