Files
myWiki/reviews/latent-cot-supervision-2026-06-25.md

3.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Latent CoT Supervision Review 2026-06-25 2026-06-25 review
latent-cot
information-theory
reasoning
supervision
latent-cot-supervision

Latent CoT Supervision — Review

📌 基本信息

  • 论文What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
  • 作者Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu ShenEIT / PolyU
  • 领域:潜推理 / 信息论cs.LG, cs.CL
  • 会议ICML 2026
  • arXiv2606.20075
  • 添加时间2026-06-25

🎯 核心概念

  1. dual-collapse — Outcome supervision 的双重崩溃:梯度衰减 + 表征漂移
  2. trajectory-supervision — 渐进式局部推理信号注入,最大化学步互信息
  3. space-supervision — 语义空间锚定,分 GC几何压缩破坏性和 GR生成式重建保留信息
  4. unified-latent-probe — 变分探针量化 I(L_t; S_t),提供跨方法可比信息度量
  5. information-performance-binding — 推理能力被潜链互信息严格上界约束
  6. generative-reconstruction-latent — 符号空间重建flexible semantic tether
  7. geometric-compression-latent — 潜空间对齐rigid destructive constraint

🔗 概念网络

  • 核心连接latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding
  • GR ↔ GC 对比generative-reconstruction-latentsuperiorvs geometric-compression-latentdestructive
  • 新增概念7 个

📚 Wiki 集成

  • 新增页面8 个1 论文 + 7 概念)
  • 链接密度:核心概念平均 6+ 交叉引用

💡 关键洞察

  1. Outcome supervision 在潜推理中本质上有缺陷:不是因为模型不够强,而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。

  2. 过程监督 ≠ 更多标签,而是信息注入的结构化策略:论文将过程监督精确定义为两个独立维度(何时注入信息 vs 信息是否保留),这比通常模糊的"process reward model"概念更有操作性。

  3. GR > GC 的信息论解释:几何压缩用 MSE 做潜空间对齐,被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息,是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。

  4. 信息-性能绑定是推理系统的普适约束:论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统,要么在利用 shortcut要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示:仅优化最终 reward 可能导致"表面成功但推理退化"。