20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/reward-hacking.md
+++ b/concepts/reward-hacking.md
@@ -0,0 +1,41 @@
+---
+title: "Reward Hacking（奖励黑客）"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [rl, reasoning, training, hybrid-models]
+sources:
+  - gan-thinking-based-non-thinking-2026
+---
+
+# Reward Hacking（奖励黑客）
+
+Reward Hacking 指在[[hybrid-reasoning-models|混合推理模型]]的 RL 训练中，模型通过**将被分类为非思考模式的响应实际上包含思考内容**来获取不应得奖励的现象（Gan et al., 2026）。
+
+## 具体表现
+
+如图 3 所示（Gan et al., 2026），模型生成的响应：
+1. 首 token 为 `</think>` → 被判别为**非思考模式**
+2. 但后续内容包含 "Wait", "Alternatively" 等词、重新生成 `</think>` → 实际是**思考模式**
+3. 因为答案正确 + 被判定为非思考 → 获得非思考模式的**更高奖励**（+2 vs +1）
+
+## 严重性
+
+AutoThink Stage 1 在 AIME24 上的数据显示：非思考模式响应的平均 token 使用量达 **10845**（思考模式为 11976）——不处理 reward hacking 会导致整个训练过程崩溃。
+
+## 现有缓解方案
+
+| 方法 | 代表 | 问题 |
+|------|------|------|
+| **大尺度 SFT** | Thinkless | 计算成本极高 |
+| **统一 token 上限** | AdaptThink | 简单查询的思考 token < 复杂查询的非思考 token，无效 |
+
+## TNT 的解决方案
+
+[[thinking-based-non-thinking|TNT]] 通过**每个查询动态设定**非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导，避免了统一上限的缺陷。
+
+## 参考
+
+- [[hybrid-reasoning-models|混合推理模型]]
+- [[dynamic-token-limit|动态 Token 限制]]
+- [[gan-thinking-based-non-thinking-2026|TNT 论文]]