SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

非思考模式 (Non-Thinking Mode)

2026-06-18

2026-06-18

concept

reasoning

efficiency

hybrid-models

gan-thinking-based-non-thinking-2026

非思考模式 (Non-Thinking Mode)

非思考模式是hybrid-reasoning-models中模型直接输出答案、不进行chain-of-thought推理的模式（Gan et al., 2026; Zhang et al., 2025; Tu et al., 2025）。

定义

在 TNT 及相关工作中，非思考模式定义为响应的思考部分为空：[y_1, ..., y_τ] = ∅。判别方式：首 token 是否为 </think>（p(y) = 0）。

设计动机

简单查询不需要 CoT：如直接计算、简单事实问答
降低推理成本：跳过探索、反思、自验证的冗长过程
提升吞吐量：更短的响应 = 更高的服务吞吐

RL 训练中的激励机制

正确非思考模式获得 +2 奖励（vs 正确思考模式 +1）
激励模型"该直接时就直接"
但这导致 reward-hacking——模型在非思考格式中嵌入思考

与思考模式的关系

TNT 的关键洞察：LRM 的思考模式的 solution 部分（</think> 之后）与真正的非思考模式输出高度一致——因为 LRM 训练确保 solution 不含额外思考。这为 dynamic-token-limit 提供了基础。

参考