Files
myWiki/reviews/latent-cot-supervision-2026-06-25.md

51 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Latent CoT Supervision Review"
created: 2026-06-25
updated: 2026-06-25
type: review
tags: [latent-cot, information-theory, reasoning, supervision]
sources:
- "[[latent-cot-supervision]]"
---
# Latent CoT Supervision — Review
📌 **基本信息**
- 论文What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
- 作者Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu ShenEIT / PolyU
- 领域:潜推理 / 信息论cs.LG, cs.CL
- 会议ICML 2026
- arXiv2606.20075
- 添加时间2026-06-25
🎯 **核心概念**
1. **[[dual-collapse]]** — Outcome supervision 的双重崩溃:梯度衰减 + 表征漂移
2. **[[trajectory-supervision]]** — 渐进式局部推理信号注入,最大化学步互信息
3. **[[space-supervision]]** — 语义空间锚定,分 GC几何压缩破坏性和 GR生成式重建保留信息
4. **[[unified-latent-probe]]** — 变分探针量化 I(L_t; S_t),提供跨方法可比信息度量
5. **[[information-performance-binding]]** — 推理能力被潜链互信息严格上界约束
6. **[[generative-reconstruction-latent]]** — 符号空间重建flexible semantic tether
7. **[[geometric-compression-latent]]** — 潜空间对齐rigid destructive constraint
🔗 **概念网络**
- **核心连接**latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding
- **GR ↔ GC 对比**generative-reconstruction-latentsuperiorvs geometric-compression-latentdestructive
- **新增概念**7 个
📚 **Wiki 集成**
- 新增页面8 个1 论文 + 7 概念)
- 链接密度:核心概念平均 6+ 交叉引用
💡 **关键洞察**
1. **Outcome supervision 在潜推理中本质上有缺陷**:不是因为模型不够强,而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。
2. **过程监督 ≠ 更多标签,而是信息注入的结构化策略**:论文将过程监督精确定义为两个独立维度(何时注入信息 vs 信息是否保留),这比通常模糊的"process reward model"概念更有操作性。
3. **GR > GC 的信息论解释**:几何压缩用 MSE 做潜空间对齐,被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息,是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。
4. **信息-性能绑定是推理系统的普适约束**:论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统,要么在利用 shortcut要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示:仅优化最终 reward 可能导致"表面成功但推理退化"。