Files
myWiki/concepts/thinking-supervision-transfer.md

41 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Thinking Supervision Transfer"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: [recommendation, chain-of-thought, supervision-transfer]
sources: [raw/papers/onereason-team-onereason-2026.md]
---
# Thinking Supervision Transfer
> CoT 监督数据对 non-thinking mode 的性能溢出效应——用 CoT 训练数据替换 unCoT 数据可提升直接解码性能。
## 观察
OneReason 实验发现:在相同训练 token 数下,用推荐 CoT 监督数据替换 unCoT 数据训练时,**non-thinking mode 的性能也得到提升**。
## 解释假设
本文审慎地将其视为**行为证据 (behavioral evidence)** 而非机制证明:
- CoT 监督信号中的某些成分可能迁移到直接解码
- 这种迁移可能来自**压缩**CoT 迫使模型学习更好的中间表示,从而改善直接输出)、**推理**CoT 中的推理模式被内化到前向传播中)、或**两者的交互**
- 目前证据无法区分这些机制
## 与 LLM 中类似现象的关联
这一发现与 LLM 中「reasoning model 的蒸馏提升 base model 表现」的现象一致——如用 o1 生成的 CoT 数据微调 GPT-4o 可提升直接回答质量。
## 实际意义
- 即使最终部署 non-thinking mode低延迟用 CoT 数据训练仍有收益
- 这为推荐系统的训练数据设计提供了新的自由度
- 但不意味着 CoT 是普遍必要的
## 参考
- [[onereason|OneReason]]
- [[recommendation-cot|推荐 CoT]]
- [[recommendation-reasoning|推荐推理]]