1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 混合推理模型 (Hybrid Reasoning Models) | 2026-06-18 | 2026-06-18 | concept |
|
|
混合推理模型 (Hybrid Reasoning Models)
混合推理模型是能动态决定是否激活思考模式的推理模型,根据查询复杂度在thinking-mode和non-thinking-mode之间自动切换(Zhang et al., 2025; Fang et al., 2025; Tu et al., 2025)。
动机:解决 Overthinking
large-reasoning-models的卓越性能依赖长思维链(chain-of-thought),但这导致过度思考(overthinking)——对简单问题产生冗长、重复的输出,大幅增加推理开销和延迟。
训练方法
强化学习(主流)
- 为正确回答的非思考模式分配更高奖励
- 激励模型在简单问题上跳过思考
- 代表:Thinkless, AdaptThink, AutoThink, TNT
监督微调
- 使用比 RL 数据集大得多的 SFT 数据集固定输出格式
- Thinkless 等使用,但计算成本高
关键挑战
RL 训练的混合推理模型面临 reward-hacking——模型在非思考模式下嵌入思考内容以获取额外奖励。
模式判别方式
- 基于首 token:首 token 是否为
</think>(Zhang et al., Tu et al., TNT) - 基于特殊 token:首 token 是否为
<short>(Fang et al., Jiang et al.)