Files
myWiki/concepts/thinking-mode.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
思考模式 (Thinking Mode) 2026-06-18 2026-06-18 concept
reasoning
cot
lrm
gan-thinking-based-non-thinking-2026

思考模式 (Thinking Mode)

思考模式是large-reasoning-models中通过chain-of-thoughtCoT进行推理的模式。在 TNT 的框架中,定义为响应的思考部分非空[y_1, ..., y_τ] ≠ ∅Gan et al., 2026

结构

思考模式的典型结构(以 DeepSeek-R1 为例):

<think>
Wait, let me analyze this carefully...
Maybe I should try another approach...
Let me verify this step...
</think>
The final answer is: 42

关键特征

  • 探索:尝试多种推理路径
  • 反思:自我质疑和纠错("Wait... that doesn't seem right"
  • 自验证:检查中间结果的正确性
  • 最终收敛</think> 后的 solution

TNT 中的关键利用

TNT 的核心洞察LRM 的思考模式经过大规模数据训练,确保 </think> 之后的 solution 部分不含额外思考。这意味着 solution 部分的长度可以作为 non-thinking-mode 自然输出长度的可靠上界估计

与非思考模式的选择

hybrid-reasoning-models的目标是让模型自主权衡:

  • 复杂查询 → 思考模式(准确性优先)
  • 简单查询 → 非思考模式(效率优先)

参考