SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

3.2 KiB

Raw Blame History

title, created, updated, type, source

title	created	updated	type	source
Review: Thinking-Based Non-Thinking (TNT)	2026-06-18	2026-06-18	review	gan-thinking-based-non-thinking-2026

📌 基本信息

论文标题：Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning
作者：Siyuan Gan, Jiaheng Liu, Boyan Wang 等（南京大学 + 九天研究院 + 上海 AI Lab）
领域：cs.AI
arXiv ID：2601.04805
类型：方法论文（RL + 混合推理训练优化）
添加时间：2026-06-18

🎯 核心概念

hybrid-reasoning-models — 能根据查询复杂度自动选择思考/非思考模式的模型
reward-hacking — RL 训练中模型在非思考格式嵌入思考内容以获取额外奖励
overthinking — LRM 对简单查询也产生冗长 CoT，浪费计算资源
thinking-based-non-thinking — "基于思考的非思考"：利用思考模式 solution 长度动态设定非思考模式 token 上限
dynamic-token-limit — 每个查询独立计算非思考模式最大 token，而非统一上限
ellipsis-prompt — 无需修改 tokenizer 即可实现非思考模式采样的提示技术
large-reasoning-models — DeepSeek-R1, OpenAI o1 等以 CoT 为核心的模型
token-level-policy-gradient — GRPO 在 token 级的细粒度信用分配

🔗 概念网络

overthinking                      reward-hacking
     ↓                                  ↓
hybrid-reasoning-models ←────── 混合推理的动机
     ↓                                  ↓
large-reasoning-models ──→ thinking-mode + non-thinking-mode
                                   ↓
                            ellipsis-prompt (实现)
                                   ↓
                            dynamic-token-limit ← thinking solution length
                                   ↓
                            thinking-based-non-thinking (TNT)
                                   ↓
                            token-level-policy-gradient → GRPO

概念特点：围绕一个清晰的优化链展开—— 问题（overthinking）→ 方案方向（hybrid reasoning）→ 训练障碍（reward hacking）→ TNT 解决（dynamic token limit from thinking）→ RL 实现（token-level GRPO）

📚 Wiki 集成

新增页面：11 个（1 论文 + 10 概念）
复用页面：4 个（token-efficiency, grpo, reinforcement-learning, chain-of-thought）
总增量：+11 页

💡 关键洞察

优雅的对称性：TNT 的方法论核心是 "用思考约束非思考"——thinking 模式的 solution 恰好是 non-thinking 的自然上限。这比 Adaptive Think 的统一 token 上限和 Thinkless 的大规模 SFT 都更简洁高效，且不引入额外训练阶段。
奖励函数设计的精妙：非思考 + hacking → -2（无论对错）的设计强力抑制 hacking 行为。这个惩罚力度足以覆盖"先思考再伪装"的收益（+2），与 token 级策略梯度结合形成细粒度的行为矫正。

3.2 KiB Raw Blame History Unescape Escape