20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/trajectory-supervision.md
+++ b/concepts/trajectory-supervision.md
@@ -0,0 +1,51 @@
+---
+title: "Trajectory Supervision"
+created: 2026-06-25
+updated: 2026-06-25
+type: concept
+tags: [latent-cot, supervision, reasoning, curriculum-learning, information-theory]
+sources:
+  - "[[latent-cot-supervision]]"
+---
+
+# Trajectory Supervision
+
+**Trajectory Supervision**（轨迹监督）是 [[latent-cot-supervision|Latent CoT 过程监督]] 的第一个维度，通过在推理链上逐步注入密集的局部监督信号来打破 [[dual-collapse|双重崩溃]]。
+
+## 核心机制
+
+渐进式训练（Progressive Training）：将训练划分为多个阶段，每阶段增加一个连续的潜块。
+
+- **阶段 0**：全显式 CoT（所有步骤用 token）
+- **阶段 1**：前 1 步用潜向量 L_1，后续用显式 token
+- **阶段 k**：前 k 步用潜向量 L_{≤k}，后续用显式 token
+- ...
+- **最终阶段**：全潜式 CoT（所有步骤用潜向量）
+
+## 目标函数
+
+在阶段 k，训练目标为：
+
+```
+L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1})
+```
+
+等价于最大化局部互信息：I(L_{≤k}; S_{k+1})。
+
+## 为什么有效
+
+1. **打破梯度衰减**：每个阶段都在当前"生成前沿"注入直接的监督信号，确保所有潜位置都接收到梯度
+2. **自然课程**：阶段递进 = 推理链从短到长的自然难度递增
+3. **局部可预测性**：强制 L_{≤k} 包含足够信息预测 S_{k+1}，降低潜流形的条件熵
+
+## 关键实验发现
+
+- **仅 Trajectory Supervision（无 Space Supervision）**：PS-LATENT 已显著优于 OS-LATENT（18.7% → 31.2%）
+- **优化器重置关键**：过渡到连续状态后不重置优化器 → 显著性能下降（31.2% vs 24.7%）——"陈旧动量"阻碍探索新损失景观
+- **与 Space Supervision 互补**：PS-GR（Trajectory + Generative Reconstruction）达到最优效果（41.2%）
+
+## 参考
+
+- [[latent-cot-supervision]]
+- [[dual-collapse]]
+- [[space-supervision]]