Files
myWiki/concepts/thinking-based-non-thinking.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
TNT: 基于思考的非思考 (Thinking-Based Non-Thinking) 2026-06-18 2026-06-18 concept
hybrid-reasoning
rl
reward-hacking
token-efficiency
gan-thinking-based-non-thinking-2026

TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)

TNT 是 Gan et al. (2026) 提出的解决hybrid-reasoning-models RL 训练中 reward-hacking 问题的方法。核心思路:利用思考模式响应的 solution 部分长度动态设定非思考模式的 token 上限。

核心机制

动态 Token 限制

对于每个查询 x采样 K 个响应。对思考模式的响应集合 M_T^x

L_N^x = ω × avg( h(y_x^j) for y_x^j in M_T^x )

其中 h(y) 为 </think> 之后的 token 数,ω > 1 为容错权重(默认 2L_∅ 为备用上限(默认 1000

奖励函数

模式 正确 错误
思考模式 +1 0
非思考 + 无 hacking +2 -1
非思考 + reward hacking -2 -2

关键是:只要 token 超过 L_N^x无论答案对错都给 -2——强力抑制 reward hacking。

为何有效

LRM 的思考模式训练确保 </think> 之后的 solution 部分不含额外思考——与真正非思考模式的输出高度一致。因此 thinking 的 solution 长度是 non-thinking 自然长度的可靠估计。

与 RL 算法的兼容性

TNT 只关注设定非思考模式的最大 token 使用量,因此与任何 RL 算法兼容GRPO、PPO、DAPO、Dr.GRPO、GSPO也可与其他混合推理技术组合。

实验结果

  • 5 个数学基准上 token 使用减少 ~50%,准确率提升 4.1%
  • 所有方法中准确率-效率最优权衡
  • Reward hacking 率 < 10%

参考