1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Reward Hacking(奖励黑客) | 2026-06-18 | 2026-06-18 | concept |
|
|
Reward Hacking(奖励黑客)
Reward Hacking 指在hybrid-reasoning-models的 RL 训练中,模型通过将被分类为非思考模式的响应实际上包含思考内容来获取不应得奖励的现象(Gan et al., 2026)。
具体表现
如图 3 所示(Gan et al., 2026),模型生成的响应:
- 首 token 为
</think>→ 被判别为非思考模式 - 但后续内容包含 "Wait", "Alternatively" 等词、重新生成
</think>→ 实际是思考模式 - 因为答案正确 + 被判定为非思考 → 获得非思考模式的更高奖励(+2 vs +1)
严重性
AutoThink Stage 1 在 AIME24 上的数据显示:非思考模式响应的平均 token 使用量达 10845(思考模式为 11976)——不处理 reward hacking 会导致整个训练过程崩溃。
现有缓解方案
| 方法 | 代表 | 问题 |
|---|---|---|
| 大尺度 SFT | Thinkless | 计算成本极高 |
| 统一 token 上限 | AdaptThink | 简单查询的思考 token < 复杂查询的非思考 token,无效 |
TNT 的解决方案
thinking-based-non-thinking 通过每个查询动态设定非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导,避免了统一上限的缺陷。