Files
myWiki/concepts/trajectory-supervision.md

52 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Trajectory Supervision"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [latent-cot, supervision, reasoning, curriculum-learning, information-theory]
sources:
- "[[latent-cot-supervision]]"
---
# Trajectory Supervision
**Trajectory Supervision**(轨迹监督)是 [[latent-cot-supervision|Latent CoT 过程监督]] 的第一个维度,通过在推理链上逐步注入密集的局部监督信号来打破 [[dual-collapse|双重崩溃]]。
## 核心机制
渐进式训练Progressive Training将训练划分为多个阶段每阶段增加一个连续的潜块。
- **阶段 0**:全显式 CoT所有步骤用 token
- **阶段 1**:前 1 步用潜向量 L_1后续用显式 token
- **阶段 k**:前 k 步用潜向量 L_{≤k},后续用显式 token
- ...
- **最终阶段**:全潜式 CoT所有步骤用潜向量
## 目标函数
在阶段 k训练目标为
```
L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1})
```
等价于最大化局部互信息I(L_{≤k}; S_{k+1})。
## 为什么有效
1. **打破梯度衰减**:每个阶段都在当前"生成前沿"注入直接的监督信号,确保所有潜位置都接收到梯度
2. **自然课程**:阶段递进 = 推理链从短到长的自然难度递增
3. **局部可预测性**:强制 L_{≤k} 包含足够信息预测 S_{k+1},降低潜流形的条件熵
## 关键实验发现
- **仅 Trajectory Supervision无 Space Supervision**PS-LATENT 已显著优于 OS-LATENT18.7% → 31.2%
- **优化器重置关键**:过渡到连续状态后不重置优化器 → 显著性能下降31.2% vs 24.7%)——"陈旧动量"阻碍探索新损失景观
- **与 Space Supervision 互补**PS-GRTrajectory + Generative Reconstruction达到最优效果41.2%
## 参考
- [[latent-cot-supervision]]
- [[dual-collapse]]
- [[space-supervision]]