Files
myWiki/concepts/information-performance-binding.md

53 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Information-Performance Binding"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [latent-cot, mutual-information, reasoning, information-theory, evaluation]
sources:
- "[[latent-cot-supervision]]"
---
# Information-Performance Binding
**Information-Performance Binding**(信息-性能绑定)是 [[latent-cot-supervision|Latent CoT Supervision]] 论文的核心发现:推理精度被潜链中保留的互信息严格上界约束。
## 形式化表述
令 Acc 为推理精度I(L; S) 为潜状态与显式推理步骤之间的互信息(通过 [[unified-latent-probe|ULP]] 的变分下界近似)。实验揭示:
> Acc ∝ -L_Info ∝ I(L; S)
即:推理精度与 ULP 探针损失呈**严格反比**,即与互信息呈**严格正比**。
## 实验证据
图 4 展示了所有方法的 ULP 损失 vs Accuracy 散点图:
- OS-GC高 L_Info低 Acc
- OS-GR / OS-LATENT中高 L_Info中低 Acc
- PS-LATENT中 L_Info中 Acc
- PS-GR最低 L_Info最高 Acc
**信息层次结构**清晰可辨,无例外。
## 含义
1. **潜推理质量可度量**ULP 提供一个独立于最终任务的推理质量度量
2. **监督策略的优化目标**:最大化 I(L_t; S_t) 是比最小化 answer loss 更 principled 的优化目标
3. **shortcut 的诊断工具**:如果 Acc 高但 I(L; S) 低 → 模型可能在利用 shortcut 而非真正推理
4. **推理链的可审计性**:潜推理的可解码性是性能的前提条件 → "黑盒推理"不太可能存在
## 启示
对 Agent 系统设计的含义:
- 内部推理链的可重建性不应视为可选——它是性能的**必要前提**
- 仅基于最终输出奖励的训练(类似 outcome-only RL可能导致潜推理过程退化
- 过程监督Trajectory + Space通过最大化互信息来维持推理的语义保真度
## 参考
- [[latent-cot-supervision]]
- [[unified-latent-probe]]
- [[space-supervision]]
- [[trajectory-supervision]]