Files
myWiki/concepts/non-thinking-mode.md

41 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "非思考模式 (Non-Thinking Mode)"
created: 2026-06-18
updated: 2026-06-18
type: concept
tags: [reasoning, efficiency, hybrid-models]
sources:
- gan-thinking-based-non-thinking-2026
---
# 非思考模式 (Non-Thinking Mode)
非思考模式是[[hybrid-reasoning-models|混合推理模型]]中模型**直接输出答案、不进行[[chain-of-thought|思维链]]推理**的模式Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025
## 定义
在 TNT 及相关工作中,非思考模式定义为响应的思考部分为**空**`[y_1, ..., y_τ] = ∅`。判别方式:首 token 是否为 `</think>`p(y) = 0
## 设计动机
- **简单查询不需要 CoT**:如直接计算、简单事实问答
- **降低推理成本**:跳过探索、反思、自验证的冗长过程
- **提升吞吐量**:更短的响应 = 更高的服务吞吐
## RL 训练中的激励机制
- 正确非思考模式获得 **+2** 奖励vs 正确思考模式 +1
- 激励模型"该直接时就直接"
- 但这导致 [[reward-hacking|Reward Hacking]]——模型在非思考格式中嵌入思考
## 与思考模式的关系
TNT 的关键洞察LRM 的思考模式的 **solution 部分**`</think>` 之后)与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 [[dynamic-token-limit|动态 Token 限制]] 提供了基础。
## 参考
- [[thinking-mode|思考模式]]
- [[reward-hacking|Reward Hacking]]
- [[dynamic-token-limit|动态 Token 限制]]
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]