1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 非思考模式 (Non-Thinking Mode) | 2026-06-18 | 2026-06-18 | concept |
|
|
非思考模式 (Non-Thinking Mode)
非思考模式是hybrid-reasoning-models中模型直接输出答案、不进行chain-of-thought推理的模式(Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025)。
定义
在 TNT 及相关工作中,非思考模式定义为响应的思考部分为空:[y_1, ..., y_τ] = ∅。判别方式:首 token 是否为 </think>(p(y) = 0)。
设计动机
- 简单查询不需要 CoT:如直接计算、简单事实问答
- 降低推理成本:跳过探索、反思、自验证的冗长过程
- 提升吞吐量:更短的响应 = 更高的服务吞吐
RL 训练中的激励机制
- 正确非思考模式获得 +2 奖励(vs 正确思考模式 +1)
- 激励模型"该直接时就直接"
- 但这导致 reward-hacking——模型在非思考格式中嵌入思考
与思考模式的关系
TNT 的关键洞察:LRM 的思考模式的 solution 部分(</think> 之后)与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 dynamic-token-limit 提供了基础。