20260625:很多新内容
This commit is contained in:
51
concepts/trajectory-supervision.md
Normal file
51
concepts/trajectory-supervision.md
Normal file
@@ -0,0 +1,51 @@
|
||||
---
|
||||
title: "Trajectory Supervision"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: concept
|
||||
tags: [latent-cot, supervision, reasoning, curriculum-learning, information-theory]
|
||||
sources:
|
||||
- "[[latent-cot-supervision]]"
|
||||
---
|
||||
|
||||
# Trajectory Supervision
|
||||
|
||||
**Trajectory Supervision**(轨迹监督)是 [[latent-cot-supervision|Latent CoT 过程监督]] 的第一个维度,通过在推理链上逐步注入密集的局部监督信号来打破 [[dual-collapse|双重崩溃]]。
|
||||
|
||||
## 核心机制
|
||||
|
||||
渐进式训练(Progressive Training):将训练划分为多个阶段,每阶段增加一个连续的潜块。
|
||||
|
||||
- **阶段 0**:全显式 CoT(所有步骤用 token)
|
||||
- **阶段 1**:前 1 步用潜向量 L_1,后续用显式 token
|
||||
- **阶段 k**:前 k 步用潜向量 L_{≤k},后续用显式 token
|
||||
- ...
|
||||
- **最终阶段**:全潜式 CoT(所有步骤用潜向量)
|
||||
|
||||
## 目标函数
|
||||
|
||||
在阶段 k,训练目标为:
|
||||
|
||||
```
|
||||
L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1})
|
||||
```
|
||||
|
||||
等价于最大化局部互信息:I(L_{≤k}; S_{k+1})。
|
||||
|
||||
## 为什么有效
|
||||
|
||||
1. **打破梯度衰减**:每个阶段都在当前"生成前沿"注入直接的监督信号,确保所有潜位置都接收到梯度
|
||||
2. **自然课程**:阶段递进 = 推理链从短到长的自然难度递增
|
||||
3. **局部可预测性**:强制 L_{≤k} 包含足够信息预测 S_{k+1},降低潜流形的条件熵
|
||||
|
||||
## 关键实验发现
|
||||
|
||||
- **仅 Trajectory Supervision(无 Space Supervision)**:PS-LATENT 已显著优于 OS-LATENT(18.7% → 31.2%)
|
||||
- **优化器重置关键**:过渡到连续状态后不重置优化器 → 显著性能下降(31.2% vs 24.7%)——"陈旧动量"阻碍探索新损失景观
|
||||
- **与 Space Supervision 互补**:PS-GR(Trajectory + Generative Reconstruction)达到最优效果(41.2%)
|
||||
|
||||
## 参考
|
||||
|
||||
- [[latent-cot-supervision]]
|
||||
- [[dual-collapse]]
|
||||
- [[space-supervision]]
|
||||
Reference in New Issue
Block a user