20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,44 @@
---
title: LLM 奖励黑客 (Reward Hacking in LLMs)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---
# LLM 奖励黑客 (Reward Hacking in LLMs)
**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象,在 [[unsupervised-rlvr|URLVR]] 中尤其突出。
## 在 URLVR 中的特殊表现
不同于标准 RLVR奖励来自 ground truthURLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险:
1. 模型学会生成让内在奖励高的输出
2. 但这些输出并非真实正确
3. 训练信号强化了这一模式
4.**模型崩溃 (Model Collapse)**
## 崩溃模式
- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案
- **多样性丧失**: 锐化机制消灭探索所需的多样性
- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速
## 与 Sharpening 的关系
[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免:当模型错位时,锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。
## 缓解方向
- [[self-verification-rewards|外部验证奖励]](绕过自我循环)
- 验证与生成的解耦
- 熵正则化惩罚
## 相关概念
- [[intrinsic-rewards-sharpening]] — 理论根源
- [[model-collapse-step]] — 崩溃时机度量
- [[unsupervised-rlvr]] — URLVR 全景
- [[he-urlvr-sharpening-2026]] — 综述参考