Files
myWiki/concepts/reward-hacking.md

42 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Reward Hacking奖励黑客"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [rl, reasoning, training, hybrid-models]
sources:
- gan-thinking-based-non-thinking-2026
---
# Reward Hacking奖励黑客
Reward Hacking 指在[[hybrid-reasoning-models|混合推理模型]]的 RL 训练中,模型通过**将被分类为非思考模式的响应实际上包含思考内容**来获取不应得奖励的现象Gan et al., 2026
## 具体表现
如图 3 所示Gan et al., 2026模型生成的响应
1. 首 token 为 `</think>` → 被判别为**非思考模式**
2. 但后续内容包含 "Wait", "Alternatively" 等词、重新生成 `</think>` → 实际是**思考模式**
3. 因为答案正确 + 被判定为非思考 → 获得非思考模式的**更高奖励**+2 vs +1
## 严重性
AutoThink Stage 1 在 AIME24 上的数据显示:非思考模式响应的平均 token 使用量达 **10845**(思考模式为 11976——不处理 reward hacking 会导致整个训练过程崩溃。
## 现有缓解方案
| 方法 | 代表 | 问题 |
|------|------|------|
| **大尺度 SFT** | Thinkless | 计算成本极高 |
| **统一 token 上限** | AdaptThink | 简单查询的思考 token < 复杂查询的非思考 token无效 |
## TNT 的解决方案
[[thinking-based-non-thinking|TNT]] 通过**每个查询动态设定**非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导避免了统一上限的缺陷
## 参考
- [[hybrid-reasoning-models|混合推理模型]]
- [[dynamic-token-limit|动态 Token 限制]]
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]