20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/information-performance-binding.md
+++ b/concepts/information-performance-binding.md
@@ -0,0 +1,52 @@
+---
+title: "Information-Performance Binding"
+created: 2026-06-25
+updated: 2026-06-25
+type: concept
+tags: [latent-cot, mutual-information, reasoning, information-theory, evaluation]
+sources:
+  - "[[latent-cot-supervision]]"
+---
+
+# Information-Performance Binding
+
+**Information-Performance Binding**（信息-性能绑定）是 [[latent-cot-supervision|Latent CoT Supervision]] 论文的核心发现：推理精度被潜链中保留的互信息严格上界约束。
+
+## 形式化表述
+
+令 Acc 为推理精度，I(L; S) 为潜状态与显式推理步骤之间的互信息（通过 [[unified-latent-probe|ULP]] 的变分下界近似）。实验揭示：
+
+> Acc ∝ -L_Info ∝ I(L; S)
+
+即：推理精度与 ULP 探针损失呈**严格反比**，即与互信息呈**严格正比**。
+
+## 实验证据
+
+图 4 展示了所有方法的 ULP 损失 vs Accuracy 散点图：
+- OS-GC：高 L_Info，低 Acc
+- OS-GR / OS-LATENT：中高 L_Info，中低 Acc
+- PS-LATENT：中 L_Info，中 Acc
+- PS-GR：最低 L_Info，最高 Acc
+
+**信息层次结构**清晰可辨，无例外。
+
+## 含义
+
+1. **潜推理质量可度量**：ULP 提供一个独立于最终任务的推理质量度量
+2. **监督策略的优化目标**：最大化 I(L_t; S_t) 是比最小化 answer loss 更 principled 的优化目标
+3. **shortcut 的诊断工具**：如果 Acc 高但 I(L; S) 低 → 模型可能在利用 shortcut 而非真正推理
+4. **推理链的可审计性**：潜推理的可解码性是性能的前提条件 → "黑盒推理"不太可能存在
+
+## 启示
+
+对 Agent 系统设计的含义：
+- 内部推理链的可重建性不应视为可选——它是性能的**必要前提**
+- 仅基于最终输出奖励的训练（类似 outcome-only RL）可能导致潜推理过程退化
+- 过程监督（Trajectory + Space）通过最大化互信息来维持推理的语义保真度
+
+## 参考
+
+- [[latent-cot-supervision]]
+- [[unified-latent-probe]]
+- [[space-supervision]]
+- [[trajectory-supervision]]