Thinking-Based Non-Thinking (TNT)

Gan et al. (2026) — arXiv:2601.04805

核心问题

用 RL 训练hybrid-reasoning-models（自动决定思考/非思考）时，模型会 Reward Hacking：在非思考格式中嵌入思考内容，获取不应得的更高奖励。现有方案或计算成本过高（大规模 SFT），或效果有限（统一 token 上限）。

TNT 的核心思路

以思考定非思考：利用思考模式响应的 solution 部分长度，为每个查询动态设定非思考模式的 token 上限。

为什么这可行

large-reasoning-models 的思考模式训练确保 </think> 之后的 solution 不含额外思考——与真正的非思考模式输出高度一致。因此 thinking solution 长度是 non-thinking 自然长度的可靠估计。

算法

对每个查询 x：
  1. 采样 K 个响应（用省略号提示）
  2. 从思考模式响应集 M_T^x 计算平均 solution 长度
  3. L_N^x = ω × avg(h(y)) — 动态上限（ω=2）
  4. 非思考响应超过 L_N^x → Reward Hacking → -2 惩罚

奖励函数设计

模式	正确	错误
思考模式	+1	0
非思考 + 无 hacking	+2	-1
非思考 + Reward Hacking	-2	-2

核心：超过 token 上限一律 -2——无论对错，强力抑制 hacking。

实验亮点

指标	TNT vs Base
Token 使用	↓ ~50%
准确率	↑ 4.1%
Reward Hacking 率	< 10%
效率权衡	最优（所有方法中）

5 个数学基准测试：AIME24, AIME25, Minerva, AMC23, Olympiad。基础模型：DeepSeek-R1-Distill-Qwen-1.5B/7B, DeepScaleR-1.5B。

概念网络

overthinking → hybrid-reasoning-models → reward-hacking
     ↓                    ↓                     ↓
large-reasoning-models   thinking-mode    dynamic-token-limit
                         non-thinking-mode     ↓
                         ellipsis-prompt  thinking-based-non-thinking (TNT)
                                               ↓
                                    token-level-policy-gradient → GRPO

兼容性

TNT 只关注 token 上限设定，与 RL 算法解耦：GRPO, PPO, DAPO, Dr.GRPO, GSPO 均可使用。也可与 CoT Compression、Batch-Level Reward Balancing、Length-Aware Reward 等技术组合。

来源

arXiv:2601.04805 | 原始存档

3.2 KiB Raw Blame History Unescape Escape