Files
myWiki/reviews/gan-tnt-review-20260618.md

61 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Thinking-Based Non-Thinking (TNT)"
created: 2026-06-18
updated: 2026-06-18
type: review
source: gan-thinking-based-non-thinking-2026
---
# 📌 基本信息
- **论文标题**Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
- **作者**Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab
- **领域**cs.AI
- **arXiv ID**2601.04805
- **类型**方法论文RL + 混合推理训练优化)
- **添加时间**2026-06-18
# 🎯 核心概念
1. **[[hybrid-reasoning-models|混合推理模型]]** — 能根据查询复杂度自动选择思考/非思考模式的模型
2. **[[reward-hacking|Reward Hacking]]** — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
3. **[[overthinking|过度思考]]** — LRM 对简单查询也产生冗长 CoT浪费计算资源
4. **[[thinking-based-non-thinking|TNT]]** — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限
5. **[[dynamic-token-limit|动态 Token 限制]]** — 每个查询独立计算非思考模式最大 token而非统一上限
6. **[[ellipsis-prompt|省略号提示]]** — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
7. **[[large-reasoning-models|大推理模型]]** — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
8. **[[token-level-policy-gradient|Token 级策略梯度]]** — GRPO 在 token 级的细粒度信用分配
# 🔗 概念网络
```
overthinking reward-hacking
↓ ↓
hybrid-reasoning-models ←────── 混合推理的动机
↓ ↓
large-reasoning-models ──→ thinking-mode + non-thinking-mode
ellipsis-prompt (实现)
dynamic-token-limit ← thinking solution length
thinking-based-non-thinking (TNT)
token-level-policy-gradient → GRPO
```
概念特点:围绕一个清晰的**优化链**展开——
问题overthinking→ 方案方向hybrid reasoning→ 训练障碍reward hacking→ TNT 解决dynamic token limit from thinking→ RL 实现token-level GRPO
# 📚 Wiki 集成
- **新增页面**11 个1 论文 + 10 概念)
- **复用页面**4 个token-efficiency, grpo, reinforcement-learning, chain-of-thought
- **总增量**+11 页
# 💡 关键洞察
1. **优雅的对称性**TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。
2. **奖励函数设计的精妙**:非思考 + hacking → -2无论对错的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2与 token 级策略梯度结合形成细粒度的行为矫正。