Files
myWiki/reviews/gan-tnt-review-20260618.md

3.2 KiB
Raw Blame History

title, created, updated, type, source
title created updated type source
Review: Thinking-Based Non-Thinking (TNT) 2026-06-18 2026-06-18 review gan-thinking-based-non-thinking-2026

📌 基本信息

  • 论文标题Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
  • 作者Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab
  • 领域cs.AI
  • arXiv ID2601.04805
  • 类型方法论文RL + 混合推理训练优化)
  • 添加时间2026-06-18

🎯 核心概念

  1. hybrid-reasoning-models — 能根据查询复杂度自动选择思考/非思考模式的模型
  2. reward-hacking — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
  3. overthinking — LRM 对简单查询也产生冗长 CoT浪费计算资源
  4. thinking-based-non-thinking — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限
  5. dynamic-token-limit — 每个查询独立计算非思考模式最大 token而非统一上限
  6. ellipsis-prompt — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
  7. large-reasoning-models — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
  8. token-level-policy-gradient — GRPO 在 token 级的细粒度信用分配

🔗 概念网络

overthinking                      reward-hacking
     ↓                                  ↓
hybrid-reasoning-models ←────── 混合推理的动机
     ↓                                  ↓
large-reasoning-models ──→ thinking-mode + non-thinking-mode
                                   ↓
                            ellipsis-prompt (实现)
                                   ↓
                            dynamic-token-limit ← thinking solution length
                                   ↓
                            thinking-based-non-thinking (TNT)
                                   ↓
                            token-level-policy-gradient → GRPO

概念特点:围绕一个清晰的优化链展开—— 问题overthinking→ 方案方向hybrid reasoning→ 训练障碍reward hacking→ TNT 解决dynamic token limit from thinking→ RL 实现token-level GRPO

📚 Wiki 集成

  • 新增页面11 个1 论文 + 10 概念)
  • 复用页面4 个token-efficiency, grpo, reinforcement-learning, chain-of-thought
  • 总增量+11 页

💡 关键洞察

  1. 优雅的对称性TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。

  2. 奖励函数设计的精妙:非思考 + hacking → -2无论对错的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2与 token 级策略梯度结合形成细粒度的行为矫正。