41 lines
1.5 KiB
Markdown
41 lines
1.5 KiB
Markdown
---
|
||
title: "Thinking Supervision Transfer"
|
||
created: 2026-06-10
|
||
updated: 2026-06-10
|
||
type: concept
|
||
tags: [recommendation, chain-of-thought, supervision-transfer]
|
||
sources: [raw/papers/onereason-team-onereason-2026.md]
|
||
---
|
||
|
||
# Thinking Supervision Transfer
|
||
|
||
> CoT 监督数据对 non-thinking mode 的性能溢出效应——用 CoT 训练数据替换 unCoT 数据可提升直接解码性能。
|
||
|
||
## 观察
|
||
|
||
OneReason 实验发现:在相同训练 token 数下,用推荐 CoT 监督数据替换 unCoT 数据训练时,**non-thinking mode 的性能也得到提升**。
|
||
|
||
## 解释假设
|
||
|
||
本文审慎地将其视为**行为证据 (behavioral evidence)** 而非机制证明:
|
||
|
||
- CoT 监督信号中的某些成分可能迁移到直接解码
|
||
- 这种迁移可能来自**压缩**(CoT 迫使模型学习更好的中间表示,从而改善直接输出)、**推理**(CoT 中的推理模式被内化到前向传播中)、或**两者的交互**
|
||
- 目前证据无法区分这些机制
|
||
|
||
## 与 LLM 中类似现象的关联
|
||
|
||
这一发现与 LLM 中「reasoning model 的蒸馏提升 base model 表现」的现象一致——如用 o1 生成的 CoT 数据微调 GPT-4o 可提升直接回答质量。
|
||
|
||
## 实际意义
|
||
|
||
- 即使最终部署 non-thinking mode(低延迟),用 CoT 数据训练仍有收益
|
||
- 这为推荐系统的训练数据设计提供了新的自由度
|
||
- 但不意味着 CoT 是普遍必要的
|
||
|
||
## 参考
|
||
|
||
- [[onereason|OneReason]]
|
||
- [[recommendation-cot|推荐 CoT]]
|
||
- [[recommendation-reasoning|推荐推理]]
|