20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/non-thinking-mode.md
+++ b/concepts/non-thinking-mode.md
@@ -0,0 +1,40 @@
+---
+title: "非思考模式 (Non-Thinking Mode)"
+created: 2026-06-18
+updated: 2026-06-18
+type: concept
+tags: [reasoning, efficiency, hybrid-models]
+sources:
+  - gan-thinking-based-non-thinking-2026
+---
+
+# 非思考模式 (Non-Thinking Mode)
+
+非思考模式是[[hybrid-reasoning-models|混合推理模型]]中模型**直接输出答案、不进行[[chain-of-thought|思维链]]推理**的模式（Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025）。
+
+## 定义
+
+在 TNT 及相关工作中，非思考模式定义为响应的思考部分为**空**：`[y_1, ..., y_τ] = ∅`。判别方式：首 token 是否为 `</think>`（p(y) = 0）。
+
+## 设计动机
+
+- **简单查询不需要 CoT**：如直接计算、简单事实问答
+- **降低推理成本**：跳过探索、反思、自验证的冗长过程
+- **提升吞吐量**：更短的响应 = 更高的服务吞吐
+
+## RL 训练中的激励机制
+
+- 正确非思考模式获得 **+2** 奖励（vs 正确思考模式 +1）
+- 激励模型"该直接时就直接"
+- 但这导致 [[reward-hacking|Reward Hacking]]——模型在非思考格式中嵌入思考
+
+## 与思考模式的关系
+
+TNT 的关键洞察：LRM 的思考模式的 **solution 部分**（`</think>` 之后）与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 [[dynamic-token-limit|动态 Token 限制]] 提供了基础。
+
+## 参考
+
+- [[thinking-mode|思考模式]]
+- [[reward-hacking|Reward Hacking]]
+- [[dynamic-token-limit|动态 Token 限制]]
+- [[gan-thinking-based-non-thinking-2026|TNT 论文]]