20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/thinking-based-non-thinking.md
+++ b/concepts/thinking-based-non-thinking.md
@@ -0,0 +1,52 @@
+---
+title: "TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [hybrid-reasoning, rl, reward-hacking, token-efficiency]
+sources:
+  - gan-thinking-based-non-thinking-2026
+---
+
+# TNT: 基于思考的非思考 (Thinking-Based Non-Thinking)
+
+TNT 是 Gan et al. (2026) 提出的解决[[hybrid-reasoning-models|混合推理模型]] RL 训练中 [[reward-hacking|Reward Hacking]] 问题的方法。核心思路：利用思考模式响应的 **solution 部分长度**动态设定非思考模式的 token 上限。
+
+## 核心机制
+
+### 动态 Token 限制
+对于每个查询 x，采样 K 个响应。对思考模式的响应集合 M_T^x：
+```
+L_N^x = ω × avg( h(y_x^j) for y_x^j in M_T^x )
+```
+其中 h(y) 为 `</think>` 之后的 token 数，ω > 1 为容错权重（默认 2），L_∅ 为备用上限（默认 1000）。
+
+### 奖励函数
+| 模式 | 正确 | 错误 |
+|------|------|------|
+| 思考模式 | +1 | 0 |
+| 非思考 + 无 hacking | +2 | -1 |
+| 非思考 + reward hacking | -2 | -2 |
+
+关键是：**只要 token 超过 L_N^x，无论答案对错都给 -2**——强力抑制 reward hacking。
+
+## 为何有效
+
+LRM 的思考模式训练确保 `</think>` 之后的 solution 部分**不含额外思考**——与真正非思考模式的输出高度一致。因此 thinking 的 solution 长度是 non-thinking 自然长度的可靠估计。
+
+## 与 RL 算法的兼容性
+
+TNT 只关注**设定非思考模式的最大 token 使用量**，因此与任何 RL 算法兼容（GRPO、PPO、DAPO、Dr.GRPO、GSPO），也可与其他混合推理技术组合。
+
+## 实验结果
+
+- 5 个数学基准上 token 使用减少 ~50%，准确率提升 4.1%
+- 所有方法中**准确率-效率最优权衡**
+- Reward hacking 率 < 10%
+
+## 参考
+
+- [[reward-hacking|Reward Hacking]]
+- [[dynamic-token-limit|动态 Token 限制]]
+- [[hybrid-reasoning-models|混合推理模型]]
+- [[gan-thinking-based-non-thinking-2026|论文]]