Files
myWiki/concepts/hybrid-reasoning-models.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
混合推理模型 (Hybrid Reasoning Models) 2026-06-18 2026-06-18 concept
reasoning
efficiency
rl
thinking
gan-thinking-based-non-thinking-2026

混合推理模型 (Hybrid Reasoning Models)

混合推理模型是能动态决定是否激活思考模式的推理模型,根据查询复杂度在thinking-modenon-thinking-mode之间自动切换Zhang et al., 2025; Fang et al., 2025; Tu et al., 2025

动机:解决 Overthinking

large-reasoning-models的卓越性能依赖长思维链(chain-of-thought),但这导致过度思考overthinking)——对简单问题产生冗长、重复的输出,大幅增加推理开销和延迟。

训练方法

强化学习(主流)

  • 为正确回答的非思考模式分配更高奖励
  • 激励模型在简单问题上跳过思考
  • 代表Thinkless, AdaptThink, AutoThink, TNT

监督微调

  • 使用比 RL 数据集大得多的 SFT 数据集固定输出格式
  • Thinkless 等使用,但计算成本高

关键挑战

RL 训练的混合推理模型面临 reward-hacking——模型在非思考模式下嵌入思考内容以获取额外奖励。

模式判别方式

  1. 基于首 token:首 token 是否为 </think>Zhang et al., Tu et al., TNT
  2. 基于特殊 token:首 token 是否为 <short>Fang et al., Jiang et al.

参考