SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

混合推理模型 (Hybrid Reasoning Models)

2026-06-18

2026-06-18

concept

reasoning

efficiency

rl

thinking

gan-thinking-based-non-thinking-2026

混合推理模型 (Hybrid Reasoning Models)

混合推理模型是能动态决定是否激活思考模式的推理模型，根据查询复杂度在thinking-mode和non-thinking-mode之间自动切换（Zhang et al., 2025; Fang et al., 2025; Tu et al., 2025）。

动机：解决 Overthinking

large-reasoning-models的卓越性能依赖长思维链（chain-of-thought），但这导致过度思考（overthinking）——对简单问题产生冗长、重复的输出，大幅增加推理开销和延迟。

训练方法

强化学习（主流）

为正确回答的非思考模式分配更高奖励
激励模型在简单问题上跳过思考
代表：Thinkless, AdaptThink, AutoThink, TNT

监督微调

使用比 RL 数据集大得多的 SFT 数据集固定输出格式
Thinkless 等使用，但计算成本高

关键挑战

RL 训练的混合推理模型面临 reward-hacking——模型在非思考模式下嵌入思考内容以获取额外奖励。

模式判别方式

基于首 token：首 token 是否为 </think>（Zhang et al., Tu et al., TNT）
基于特殊 token：首 token 是否为 <short>（Fang et al., Jiang et al.）

参考