42 lines
1.6 KiB
Markdown
42 lines
1.6 KiB
Markdown
---
|
||
title: "Reward Hacking(奖励黑客)"
|
||
created: 2026-06-18
|
||
updated: 2026-06-18
|
||
type: concept
|
||
tags: [rl, reasoning, training, hybrid-models]
|
||
sources:
|
||
- gan-thinking-based-non-thinking-2026
|
||
---
|
||
|
||
# Reward Hacking(奖励黑客)
|
||
|
||
Reward Hacking 指在[[hybrid-reasoning-models|混合推理模型]]的 RL 训练中,模型通过**将被分类为非思考模式的响应实际上包含思考内容**来获取不应得奖励的现象(Gan et al., 2026)。
|
||
|
||
## 具体表现
|
||
|
||
如图 3 所示(Gan et al., 2026),模型生成的响应:
|
||
1. 首 token 为 `</think>` → 被判别为**非思考模式**
|
||
2. 但后续内容包含 "Wait", "Alternatively" 等词、重新生成 `</think>` → 实际是**思考模式**
|
||
3. 因为答案正确 + 被判定为非思考 → 获得非思考模式的**更高奖励**(+2 vs +1)
|
||
|
||
## 严重性
|
||
|
||
AutoThink Stage 1 在 AIME24 上的数据显示:非思考模式响应的平均 token 使用量达 **10845**(思考模式为 11976)——不处理 reward hacking 会导致整个训练过程崩溃。
|
||
|
||
## 现有缓解方案
|
||
|
||
| 方法 | 代表 | 问题 |
|
||
|------|------|------|
|
||
| **大尺度 SFT** | Thinkless | 计算成本极高 |
|
||
| **统一 token 上限** | AdaptThink | 简单查询的思考 token < 复杂查询的非思考 token,无效 |
|
||
|
||
## TNT 的解决方案
|
||
|
||
[[thinking-based-non-thinking|TNT]] 通过**每个查询动态设定**非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导,避免了统一上限的缺陷。
|
||
|
||
## 参考
|
||
|
||
- [[hybrid-reasoning-models|混合推理模型]]
|
||
- [[dynamic-token-limit|动态 Token 限制]]
|
||
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]
|