1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 思考模式 (Thinking Mode) | 2026-06-18 | 2026-06-18 | concept |
|
|
思考模式 (Thinking Mode)
思考模式是large-reasoning-models中通过长chain-of-thought(CoT)进行推理的模式。在 TNT 的框架中,定义为响应的思考部分非空:[y_1, ..., y_τ] ≠ ∅(Gan et al., 2026)。
结构
思考模式的典型结构(以 DeepSeek-R1 为例):
<think>
Wait, let me analyze this carefully...
Maybe I should try another approach...
Let me verify this step...
</think>
The final answer is: 42
关键特征
- 探索:尝试多种推理路径
- 反思:自我质疑和纠错("Wait... that doesn't seem right")
- 自验证:检查中间结果的正确性
- 最终收敛到
</think>后的 solution
TNT 中的关键利用
TNT 的核心洞察:LRM 的思考模式经过大规模数据训练,确保 </think> 之后的 solution 部分不含额外思考。这意味着 solution 部分的长度可以作为 non-thinking-mode 自然输出长度的可靠上界估计。
与非思考模式的选择
hybrid-reasoning-models的目标是让模型自主权衡:
- 复杂查询 → 思考模式(准确性优先)
- 简单查询 → 非思考模式(效率优先)