3.2 KiB
3.2 KiB
title, created, updated, type, source
| title | created | updated | type | source |
|---|---|---|---|---|
| Review: Thinking-Based Non-Thinking (TNT) | 2026-06-18 | 2026-06-18 | review | gan-thinking-based-non-thinking-2026 |
📌 基本信息
- 论文标题:Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
- 作者:Siyuan Gan, Jiaheng Liu, Boyan Wang 等(南京大学 + 九天研究院 + 上海 AI Lab)
- 领域:cs.AI
- arXiv ID:2601.04805
- 类型:方法论文(RL + 混合推理训练优化)
- 添加时间:2026-06-18
🎯 核心概念
- hybrid-reasoning-models — 能根据查询复杂度自动选择思考/非思考模式的模型
- reward-hacking — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
- overthinking — LRM 对简单查询也产生冗长 CoT,浪费计算资源
- thinking-based-non-thinking — "基于思考的非思考":利用思考模式 solution 长度动态设定非思考模式 token 上限
- dynamic-token-limit — 每个查询独立计算非思考模式最大 token,而非统一上限
- ellipsis-prompt — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
- large-reasoning-models — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
- token-level-policy-gradient — GRPO 在 token 级的细粒度信用分配
🔗 概念网络
overthinking reward-hacking
↓ ↓
hybrid-reasoning-models ←────── 混合推理的动机
↓ ↓
large-reasoning-models ──→ thinking-mode + non-thinking-mode
↓
ellipsis-prompt (实现)
↓
dynamic-token-limit ← thinking solution length
↓
thinking-based-non-thinking (TNT)
↓
token-level-policy-gradient → GRPO
概念特点:围绕一个清晰的优化链展开—— 问题(overthinking)→ 方案方向(hybrid reasoning)→ 训练障碍(reward hacking)→ TNT 解决(dynamic token limit from thinking)→ RL 实现(token-level GRPO)
📚 Wiki 集成
- 新增页面:11 个(1 论文 + 10 概念)
- 复用页面:4 个(token-efficiency, grpo, reinforcement-learning, chain-of-thought)
- 总增量:+11 页
💡 关键洞察
-
优雅的对称性:TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效,且不引入额外训练阶段。
-
奖励函数设计的精妙:非思考 + hacking → -2(无论对错)的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益(+2),与 token 级策略梯度结合形成细粒度的行为矫正。