Latent CoT Supervision

Latent CoT Supervision 是 ICML 2026 的工作（Chen et al.），从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理，并将过程监督分解为两个互补维度。

核心发现

1. Outcome Supervision 的双重崩溃

仅使用最终答案损失训练 Latent CoT 失败于两个机制：

机制	现象	后果
**[[dual-collapse	梯度衰减]]**	监督信号集中于 L1，L2...L6 梯度接近零
**[[dual-collapse	表征漂移]]**	潜状态在训练中偏离语义参考区

两者的交互效应：梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径（shortcut）最小化，而非通过真正的多步推理。

2. 过程监督的二维分解

trajectory-supervision（轨迹监督）：

逐步注入推理信号：阶段 k 训练时，前 k 步使用连续潜状态 L_{≤k}，后续使用显式 token
目标：最大化局部互信息 I(L_{≤k}; S_{k+1})
关键发现：仅 Trajectory Supervision（无 Space Supervision）已显著优于 Outcome-only

space-supervision（空间监督）：

geometric-compression-latent：MSE 对齐潜状态到静态嵌入 → 破坏性约束，坍缩高维推理流形
generative-reconstruction-latent：辅助解码器从潜状态恢复文本 → 语义锚定，保留信息容量

GR 的信息论优势：最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。

3. Unified Latent Probe (ULP)

unified-latent-probe 是一个轻量解码器 q_φ(S_t | L_t)，冻结模型后训练在所有 baseline 的潜状态上。其重建损失 L_Info 提供了一个严格的信息度量：

L_Info 低 → 潜状态保留了可恢复的推理语义
L_Info 高 → 潜状态退化到高熵无结构区域

4. Information-Performance Binding

information-performance-binding：推理精度与 ULP 重建损失呈严格的反比关系。即推理能力被潜链中的互信息上界严格约束。

实验中 PS-GR（Trajectory + Generative Reconstruction）达到最优前沿：最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。

方法论要点

渐进式训练（Progressive Training）：从完全显式 CoT 逐步过渡到完全 Latent CoT
粒度（Granularity g）：g 个 token 合并为一个潜向量。g=1（逐 token 潜向量）效果最优但计算昂贵
优化器重置：过渡到连续状态时重置优化器 → "探索冲击"（exploration shock）帮助逃离局部最优
信息衰减：自回归潜生成存在 position-wise 信息衰减，GR 通过可重建性约束周期性"重置"语义漂移

局限

模型规模仅限于 GPT-2，需在更大模型上验证
依赖过程标注（ground-truth reasoning steps），限制可扩展性
MI 估计受限于变分探针容量，可能保守

3.8 KiB Raw Blame History Unescape Escape