20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/thinking-supervision-transfer.md
+++ b/concepts/thinking-supervision-transfer.md
@@ -0,0 +1,40 @@
+---
+title: "Thinking Supervision Transfer"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: [recommendation, chain-of-thought, supervision-transfer]
+sources: [raw/papers/onereason-team-onereason-2026.md]
+---
+
+# Thinking Supervision Transfer
+
+> CoT 监督数据对 non-thinking mode 的性能溢出效应——用 CoT 训练数据替换 unCoT 数据可提升直接解码性能。
+
+## 观察
+
+OneReason 实验发现：在相同训练 token 数下，用推荐 CoT 监督数据替换 unCoT 数据训练时，**non-thinking mode 的性能也得到提升**。
+
+## 解释假设
+
+本文审慎地将其视为**行为证据 (behavioral evidence)** 而非机制证明：
+
+- CoT 监督信号中的某些成分可能迁移到直接解码
+- 这种迁移可能来自**压缩**（CoT 迫使模型学习更好的中间表示，从而改善直接输出）、**推理**（CoT 中的推理模式被内化到前向传播中）、或**两者的交互**
+- 目前证据无法区分这些机制
+
+## 与 LLM 中类似现象的关联
+
+这一发现与 LLM 中「reasoning model 的蒸馏提升 base model 表现」的现象一致——如用 o1 生成的 CoT 数据微调 GPT-4o 可提升直接回答质量。
+
+## 实际意义
+
+- 即使最终部署 non-thinking mode（低延迟），用 CoT 数据训练仍有收益
+- 这为推荐系统的训练数据设计提供了新的自由度
+- 但不意味着 CoT 是普遍必要的
+
+## 参考
+
+- [[onereason|OneReason]]
+- [[recommendation-cot|推荐 CoT]]
+- [[recommendation-reasoning|推荐推理]]