Files
myWiki/concepts/thinking-based-non-thinking.md

53 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [hybrid-reasoning, rl, reward-hacking, token-efficiency]
sources:
- gan-thinking-based-non-thinking-2026
---
# TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)
TNT 是 Gan et al. (2026) 提出的解决[[hybrid-reasoning-models|混合推理模型]] RL 训练中 [[reward-hacking|Reward Hacking]] 问题的方法。核心思路:利用思考模式响应的 **solution 部分长度**动态设定非思考模式的 token 上限。
## 核心机制
### 动态 Token 限制
对于每个查询 x采样 K 个响应。对思考模式的响应集合 M_T^x
```
L_N^x = ω × avg( h(y_x^j) for y_x^j in M_T^x )
```
其中 h(y) 为 `</think>` 之后的 token 数,ω > 1 为容错权重(默认 2L_∅ 为备用上限(默认 1000
### 奖励函数
| 模式 | 正确 | 错误 |
|------|------|------|
| 思考模式 | +1 | 0 |
| 非思考 + 无 hacking | +2 | -1 |
| 非思考 + reward hacking | -2 | -2 |
关键是:**只要 token 超过 L_N^x无论答案对错都给 -2**——强力抑制 reward hacking。
## 为何有效
LRM 的思考模式训练确保 `</think>` 之后的 solution 部分**不含额外思考**——与真正非思考模式的输出高度一致。因此 thinking 的 solution 长度是 non-thinking 自然长度的可靠估计。
## 与 RL 算法的兼容性
TNT 只关注**设定非思考模式的最大 token 使用量**,因此与任何 RL 算法兼容GRPO、PPO、DAPO、Dr.GRPO、GSPO也可与其他混合推理技术组合。
## 实验结果
- 5 个数学基准上 token 使用减少 ~50%,准确率提升 4.1%
- 所有方法中**准确率-效率最优权衡**
- Reward hacking 率 < 10%
## 参考
- [[reward-hacking|Reward Hacking]]
- [[dynamic-token-limit|动态 Token 限制]]
- [[hybrid-reasoning-models|混合推理模型]]
- [[gan-thinking-based-non-thinking-2026|论文]]