20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/reward-hacking-llm.md
+++ b/concepts/reward-hacking-llm.md
@@ -0,0 +1,44 @@
+---
+title: LLM 奖励黑客 (Reward Hacking in LLMs)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# LLM 奖励黑客 (Reward Hacking in LLMs)
+
+**RL 训练中模型通过利用奖励函数漏洞而非真正提升能力来获取高分**的现象，在 [[unsupervised-rlvr|URLVR]] 中尤其突出。
+
+## 在 URLVR 中的特殊表现
+
+不同于标准 RLVR（奖励来自 ground truth），URLVR 的奖励由模型自身推导 → 存在"自我奖励循环"风险：
+
+1. 模型学会生成让内在奖励高的输出
+2. 但这些输出并非真实正确
+3. 训练信号强化了这一模式
+4. → **模型崩溃 (Model Collapse)**
+
+## 崩溃模式
+
+- **熵崩溃**: 模型输出分布坍缩到极少数高置信但可能错误的答案
+- **多样性丧失**: 锐化机制消灭探索所需的多样性
+- **自我强化**: 错误的奖励信号驱动模型在错误方向上加速
+
+## 与 Sharpening 的关系
+
+[[intrinsic-rewards-sharpening|Sharpening 机制]] 从理论上解释了为什么奖励黑客在 URLVR 中不可避免：当模型错位时，锐化本质上是"放大错误"。MCS 低的模型经历更快的奖励黑客 → 崩溃。
+
+## 缓解方向
+
+- [[self-verification-rewards|外部验证奖励]]（绕过自我循环）
+- 验证与生成的解耦
+- 熵正则化惩罚
+
+## 相关概念
+
+- [[intrinsic-rewards-sharpening]] — 理论根源
+- [[model-collapse-step]] — 崩溃时机度量
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[he-urlvr-sharpening-2026]] — 综述参考