SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Trajectory Supervision

2026-06-25

2026-06-25

concept

latent-cot

supervision

reasoning

curriculum-learning

information-theory

latent-cot-supervision

Trajectory Supervision

Trajectory Supervision（轨迹监督）是 latent-cot-supervision 的第一个维度，通过在推理链上逐步注入密集的局部监督信号来打破 dual-collapse。

核心机制

渐进式训练（Progressive Training）：将训练划分为多个阶段，每阶段增加一个连续的潜块。

阶段 0：全显式 CoT（所有步骤用 token）
阶段 1：前 1 步用潜向量 L_1，后续用显式 token
阶段 k：前 k 步用潜向量 L_{≤k}，后续用显式 token
...
最终阶段：全潜式 CoT（所有步骤用潜向量）

目标函数

在阶段 k，训练目标为：

L_stage-k = -Σ log P_θ(S_j | L_{≤k}, S_{k+1}, ..., S_{j-1})

等价于最大化局部互信息：I(L_{≤k}; S_{k+1})。

为什么有效

打破梯度衰减：每个阶段都在当前"生成前沿"注入直接的监督信号，确保所有潜位置都接收到梯度
自然课程：阶段递进 = 推理链从短到长的自然难度递增
局部可预测性：强制 L_{≤k} 包含足够信息预测 S_{k+1}，降低潜流形的条件熵

关键实验发现

仅 Trajectory Supervision（无 Space Supervision）：PS-LATENT 已显著优于 OS-LATENT（18.7% → 31.2%）
优化器重置关键：过渡到连续状态后不重置优化器 → 显著性能下降（31.2% vs 24.7%）——"陈旧动量"阻碍探索新损失景观
与 Space Supervision 互补：PS-GR（Trajectory + Generative Reconstruction）达到最优效果（41.2%）

参考