SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Thinking Supervision Transfer

2026-06-10

2026-06-10

concept

recommendation

chain-of-thought

supervision-transfer

raw/papers/onereason-team-onereason-2026.md

Thinking Supervision Transfer

CoT 监督数据对 non-thinking mode 的性能溢出效应——用 CoT 训练数据替换 unCoT 数据可提升直接解码性能。

观察

OneReason 实验发现：在相同训练 token 数下，用推荐 CoT 监督数据替换 unCoT 数据训练时，non-thinking mode 的性能也得到提升。

解释假设

本文审慎地将其视为行为证据 (behavioral evidence) 而非机制证明：

CoT 监督信号中的某些成分可能迁移到直接解码
这种迁移可能来自压缩（CoT 迫使模型学习更好的中间表示，从而改善直接输出）、推理（CoT 中的推理模式被内化到前向传播中）、或两者的交互
目前证据无法区分这些机制

与 LLM 中类似现象的关联

这一发现与 LLM 中「reasoning model 的蒸馏提升 base model 表现」的现象一致——如用 o1 生成的 CoT 数据微调 GPT-4o 可提升直接回答质量。

实际意义

即使最终部署 non-thinking mode（低延迟），用 CoT 数据训练仍有收益
这为推荐系统的训练数据设计提供了新的自由度
但不意味着 CoT 是普遍必要的

参考