--- title: "Review: Thinking-Based Non-Thinking (TNT)" created: 2026-06-18 updated: 2026-06-18 type: review source: gan-thinking-based-non-thinking-2026 --- # 📌 基本信息 - **论文标题**:Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning - **作者**:Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab) - **领域**:cs.AI - **arXiv ID**:2601.04805 - **类型**:方法论文(RL + 混合推理训练优化) - **添加时间**:2026-06-18 # 🎯 核心概念 1. **[[hybrid-reasoning-models|混合推理模型]]** — 能根据查询复杂度自动选择思考/非思考模式的模型 2. **[[reward-hacking|Reward Hacking]]** — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励 3. **[[overthinking|过度思考]]** — LRM 对简单查询也产生冗长 CoT,浪费计算资源 4. **[[thinking-based-non-thinking|TNT]]** — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限 5. **[[dynamic-token-limit|动态 Token 限制]]** — 每个查询独立计算非思考模式最大 token,而非统一上限 6. **[[ellipsis-prompt|省略号提示]]** — 无需修改 tokenizer 即可实现非思考模式采样的提示技术 7. **[[large-reasoning-models|大推理模型]]** — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型 8. **[[token-level-policy-gradient|Token 级策略梯度]]** — GRPO 在 token 级的细粒度信用分配 # 🔗 概念网络 ``` overthinking reward-hacking ↓ ↓ hybrid-reasoning-models ←────── 混合推理的动机 ↓ ↓ large-reasoning-models ──→ thinking-mode + non-thinking-mode ↓ ellipsis-prompt (实现) ↓ dynamic-token-limit ← thinking solution length ↓ thinking-based-non-thinking (TNT) ↓ token-level-policy-gradient → GRPO ``` 概念特点:围绕一个清晰的**优化链**展开—— 问题(overthinking)→ 方案方向(hybrid reasoning)→ 训练障碍(reward hacking)→ TNT 解决(dynamic token limit from thinking)→ RL 实现(token-level GRPO) # 📚 Wiki 集成 - **新增页面**:11 个(1 论文 + 10 概念) - **复用页面**:4 个(token-efficiency, grpo, reinforcement-learning, chain-of-thought) - **总增量**:+11 页 # 💡 关键洞察 1. **优雅的对称性**:TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。 2. **奖励函数设计的精妙**:非思考 + hacking → -2(无论对错)的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2),与 token 级策略梯度结合形成细粒度的行为矫正。