20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/latent-cot-supervision-2026-06-25.md
+++ b/reviews/latent-cot-supervision-2026-06-25.md
@@ -0,0 +1,50 @@
+---
+title: "Latent CoT Supervision Review"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: [latent-cot, information-theory, reasoning, supervision]
+sources:
+  - "[[latent-cot-supervision]]"
+---
+
+# Latent CoT Supervision — Review
+
+📌 **基本信息**
+- 论文：What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
+- 作者：Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen（EIT / PolyU）
+- 领域：潜推理 / 信息论（cs.LG, cs.CL）
+- 会议：ICML 2026
+- arXiv：2606.20075
+- 添加时间：2026-06-25
+
+🎯 **核心概念**
+
+1. **[[dual-collapse]]** — Outcome supervision 的双重崩溃：梯度衰减 + 表征漂移
+2. **[[trajectory-supervision]]** — 渐进式局部推理信号注入，最大化学步互信息
+3. **[[space-supervision]]** — 语义空间锚定，分 GC（几何压缩，破坏性）和 GR（生成式重建，保留信息）
+4. **[[unified-latent-probe]]** — 变分探针量化 I(L_t; S_t)，提供跨方法可比信息度量
+5. **[[information-performance-binding]]** — 推理能力被潜链互信息严格上界约束
+6. **[[generative-reconstruction-latent]]** — 符号空间重建：flexible semantic tether
+7. **[[geometric-compression-latent]]** — 潜空间对齐：rigid destructive constraint
+
+🔗 **概念网络**
+
+- **核心连接**：latent-cot-supervision ↔ dual-collapse → broken by trajectory-supervision + space-supervision → validated by unified-latent-probe → reveals information-performance-binding
+- **GR ↔ GC 对比**：generative-reconstruction-latent（superior）vs geometric-compression-latent（destructive）
+- **新增概念**：7 个
+
+📚 **Wiki 集成**
+
+- 新增页面：8 个（1 论文 + 7 概念）
+- 链接密度：核心概念平均 6+ 交叉引用
+
+💡 **关键洞察**
+
+1. **Outcome supervision 在潜推理中本质上有缺陷**：不是因为模型不够强，而是因为梯度衰减和表征漂移是 outcome-only 优化的结构性问题——更深的网络、更多的数据都无法根本解决。
+
+2. **过程监督 ≠ 更多标签，而是信息注入的结构化策略**：论文将过程监督精确定义为两个独立维度（何时注入信息 vs 信息是否保留），这比通常模糊的"process reward model"概念更有操作性。
+
+3. **GR > GC 的信息论解释**：几何压缩用 MSE 做潜空间对齐，被论文证明是"破坏性约束"——它会坍缩高维推理流形。生成式重建通过最小化 H(S_t | L_t) 直接最大化互信息，是更 principled 的替代方案。这一结论对表示学习有超出 Latent CoT 的启示。
+
+4. **信息-性能绑定是推理系统的普适约束**：论文的核心发现——推理能力被保留的互信息严格上界约束——意味着任何不追求可解码内部状态的推理系统，要么在利用 shortcut，要么存在未被利用的推理能力。这对于 Agent 的 RL-based 推理训练有直接警示：仅优化最终 reward 可能导致"表面成功但推理退化"。