Files
myWiki/concepts/trajectory-supervision.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Trajectory Supervision 2026-06-25 2026-06-25 concept
latent-cot
supervision
reasoning
curriculum-learning
information-theory
latent-cot-supervision

Trajectory Supervision

Trajectory Supervision(轨迹监督)是 latent-cot-supervision 的第一个维度,通过在推理链上逐步注入密集的局部监督信号来打破 dual-collapse

核心机制

渐进式训练Progressive Training将训练划分为多个阶段每阶段增加一个连续的潜块。

  • 阶段 0:全显式 CoT所有步骤用 token
  • 阶段 1:前 1 步用潜向量 L_1后续用显式 token
  • 阶段 k:前 k 步用潜向量 L_{≤k},后续用显式 token
  • ...
  • 最终阶段:全潜式 CoT所有步骤用潜向量

目标函数

在阶段 k训练目标为

L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1})

等价于最大化局部互信息I(L_{≤k}; S_{k+1})。

为什么有效

  1. 打破梯度衰减:每个阶段都在当前"生成前沿"注入直接的监督信号,确保所有潜位置都接收到梯度
  2. 自然课程:阶段递进 = 推理链从短到长的自然难度递增
  3. 局部可预测性:强制 L_{≤k} 包含足够信息预测 S_{k+1},降低潜流形的条件熵

关键实验发现

  • 仅 Trajectory Supervision无 Space SupervisionPS-LATENT 已显著优于 OS-LATENT18.7% → 31.2%
  • 优化器重置关键:过渡到连续状态后不重置优化器 → 显著性能下降31.2% vs 24.7%)——"陈旧动量"阻碍探索新损失景观
  • 与 Space Supervision 互补PS-GRTrajectory + Generative Reconstruction达到最优效果41.2%

参考