20260625:很多新内容
This commit is contained in:
40
concepts/non-thinking-mode.md
Normal file
40
concepts/non-thinking-mode.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "非思考模式 (Non-Thinking Mode)"
|
||||
created: 2026-06-18
|
||||
updated: 2026-06-18
|
||||
type: concept
|
||||
tags: [reasoning, efficiency, hybrid-models]
|
||||
sources:
|
||||
- gan-thinking-based-non-thinking-2026
|
||||
---
|
||||
|
||||
# 非思考模式 (Non-Thinking Mode)
|
||||
|
||||
非思考模式是[[hybrid-reasoning-models|混合推理模型]]中模型**直接输出答案、不进行[[chain-of-thought|思维链]]推理**的模式(Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025)。
|
||||
|
||||
## 定义
|
||||
|
||||
在 TNT 及相关工作中,非思考模式定义为响应的思考部分为**空**:`[y_1, ..., y_τ] = ∅`。判别方式:首 token 是否为 `</think>`(p(y) = 0)。
|
||||
|
||||
## 设计动机
|
||||
|
||||
- **简单查询不需要 CoT**:如直接计算、简单事实问答
|
||||
- **降低推理成本**:跳过探索、反思、自验证的冗长过程
|
||||
- **提升吞吐量**:更短的响应 = 更高的服务吞吐
|
||||
|
||||
## RL 训练中的激励机制
|
||||
|
||||
- 正确非思考模式获得 **+2** 奖励(vs 正确思考模式 +1)
|
||||
- 激励模型"该直接时就直接"
|
||||
- 但这导致 [[reward-hacking|Reward Hacking]]——模型在非思考格式中嵌入思考
|
||||
|
||||
## 与思考模式的关系
|
||||
|
||||
TNT 的关键洞察:LRM 的思考模式的 **solution 部分**(`</think>` 之后)与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 [[dynamic-token-limit|动态 Token 限制]] 提供了基础。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[thinking-mode|思考模式]]
|
||||
- [[reward-hacking|Reward Hacking]]
|
||||
- [[dynamic-token-limit|动态 Token 限制]]
|
||||
- [[gan-thinking-based-non-thinking-2026|TNT 论文]]
|
||||
Reference in New Issue
Block a user