Files
myWiki/concepts/reward-hacking.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Reward Hacking奖励黑客 2026-06-18 2026-06-18 concept
rl
reasoning
training
hybrid-models
gan-thinking-based-non-thinking-2026

Reward Hacking奖励黑客

Reward Hacking 指在hybrid-reasoning-models的 RL 训练中,模型通过将被分类为非思考模式的响应实际上包含思考内容来获取不应得奖励的现象Gan et al., 2026

具体表现

如图 3 所示Gan et al., 2026模型生成的响应

  1. 首 token 为 </think> → 被判别为非思考模式
  2. 但后续内容包含 "Wait", "Alternatively" 等词、重新生成 </think> → 实际是思考模式
  3. 因为答案正确 + 被判定为非思考 → 获得非思考模式的更高奖励+2 vs +1

严重性

AutoThink Stage 1 在 AIME24 上的数据显示:非思考模式响应的平均 token 使用量达 10845(思考模式为 11976——不处理 reward hacking 会导致整个训练过程崩溃。

现有缓解方案

方法 代表 问题
大尺度 SFT Thinkless 计算成本极高
统一 token 上限 AdaptThink 简单查询的思考 token < 复杂查询的非思考 token无效

TNT 的解决方案

thinking-based-non-thinking 通过每个查询动态设定非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导,避免了统一上限的缺陷。

参考