Files
myWiki/papers/latent-cot-supervision.md

3.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
What Makes Effective Supervision in Latent Chain-of-Thought 2026-06-25 2026-06-25 paper
latent-cot
information-theory
mutual-information
reasoning
supervision
representation-learning
https://arxiv.org/abs/2606.20075
https://github.com/EIT-NLP/Supervision-in-Latent-CoT

Latent CoT Supervision

Latent CoT Supervision 是 ICML 2026 的工作Chen et al.),从信息论角度系统分析了 Latent Chain-of-Thought 的有效监督机制。核心贡献在于识别 outcome supervision 的失败机理,并将过程监督分解为两个互补维度。

核心发现

1. Outcome Supervision 的双重崩溃

仅使用最终答案损失训练 Latent CoT 失败于两个机制:

机制 现象 后果
**[[dual-collapse 梯度衰减]]** 监督信号集中于 L1L2...L6 梯度接近零
**[[dual-collapse 表征漂移]]** 潜状态在训练中偏离语义参考区

两者的交互效应:梯度衰减导致深层潜状态未受充分训练 → 它们在参数空间中"漂移" → 最终 answer loss 通过捷径shortcut最小化而非通过真正的多步推理。

2. 过程监督的二维分解

trajectory-supervision(轨迹监督):

  • 逐步注入推理信号:阶段 k 训练时,前 k 步使用连续潜状态 L_{≤k},后续使用显式 token
  • 目标:最大化局部互信息 I(L_{≤k}; S_{k+1})
  • 关键发现:仅 Trajectory Supervision无 Space Supervision已显著优于 Outcome-only

space-supervision(空间监督):

GR 的信息论优势:最小化 H(S_t | L_t) → 最大化 I(L_t; S_t) 的变分下界。

3. Unified Latent Probe (ULP)

unified-latent-probe 是一个轻量解码器 q_φ(S_t | L_t),冻结模型后训练在所有 baseline 的潜状态上。 其重建损失 L_Info 提供了一个严格的信息度量:

  • L_Info 低 → 潜状态保留了可恢复的推理语义
  • L_Info 高 → 潜状态退化到高熵无结构区域

4. Information-Performance Binding

information-performance-binding:推理精度与 ULP 重建损失呈严格的反比关系。即推理能力被潜链中的互信息上界严格约束。

实验中 PS-GRTrajectory + Generative Reconstruction达到最优前沿最大化 I(L_t; S_t) 并保持 I(L_{≤k}; S_{k+1}) 的可预测性。

方法论要点

  • 渐进式训练Progressive Training从完全显式 CoT 逐步过渡到完全 Latent CoT
  • 粒度Granularity gg 个 token 合并为一个潜向量。g=1逐 token 潜向量)效果最优但计算昂贵
  • 优化器重置:过渡到连续状态时重置优化器 → "探索冲击"exploration shock帮助逃离局部最优
  • 信息衰减:自回归潜生成存在 position-wise 信息衰减GR 通过可重建性约束周期性"重置"语义漂移

局限

  • 模型规模仅限于 GPT-2需在更大模型上验证
  • 依赖过程标注ground-truth reasoning steps限制可扩展性
  • MI 估计受限于变分探针容量,可能保守

参考