Reward Hacking（奖励黑客）

Reward Hacking 指在hybrid-reasoning-models的 RL 训练中，模型通过将被分类为非思考模式的响应实际上包含思考内容来获取不应得奖励的现象（Gan et al., 2026）。

具体表现

如图 3 所示（Gan et al., 2026），模型生成的响应：

AutoThink Stage 1 在 AIME24 上的数据显示：非思考模式响应的平均 token 使用量达 10845（思考模式为 11976）——不处理 reward hacking 会导致整个训练过程崩溃。

方法	代表	问题
大尺度 SFT	Thinkless	计算成本极高
统一 token 上限	AdaptThink	简单查询的思考 token < 复杂查询的非思考 token，无效

thinking-based-non-thinking 通过每个查询动态设定非思考模式的最大 token 使用量——从思考模式响应的 solution 部分长度推导，避免了统一上限的缺陷。