20260625:很多新内容
This commit is contained in:
52
concepts/information-performance-binding.md
Normal file
52
concepts/information-performance-binding.md
Normal file
@@ -0,0 +1,52 @@
|
||||
---
|
||||
title: "Information-Performance Binding"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: concept
|
||||
tags: [latent-cot, mutual-information, reasoning, information-theory, evaluation]
|
||||
sources:
|
||||
- "[[latent-cot-supervision]]"
|
||||
---
|
||||
|
||||
# Information-Performance Binding
|
||||
|
||||
**Information-Performance Binding**(信息-性能绑定)是 [[latent-cot-supervision|Latent CoT Supervision]] 论文的核心发现:推理精度被潜链中保留的互信息严格上界约束。
|
||||
|
||||
## 形式化表述
|
||||
|
||||
令 Acc 为推理精度,I(L; S) 为潜状态与显式推理步骤之间的互信息(通过 [[unified-latent-probe|ULP]] 的变分下界近似)。实验揭示:
|
||||
|
||||
> Acc ∝ -L_Info ∝ I(L; S)
|
||||
|
||||
即:推理精度与 ULP 探针损失呈**严格反比**,即与互信息呈**严格正比**。
|
||||
|
||||
## 实验证据
|
||||
|
||||
图 4 展示了所有方法的 ULP 损失 vs Accuracy 散点图:
|
||||
- OS-GC:高 L_Info,低 Acc
|
||||
- OS-GR / OS-LATENT:中高 L_Info,中低 Acc
|
||||
- PS-LATENT:中 L_Info,中 Acc
|
||||
- PS-GR:最低 L_Info,最高 Acc
|
||||
|
||||
**信息层次结构**清晰可辨,无例外。
|
||||
|
||||
## 含义
|
||||
|
||||
1. **潜推理质量可度量**:ULP 提供一个独立于最终任务的推理质量度量
|
||||
2. **监督策略的优化目标**:最大化 I(L_t; S_t) 是比最小化 answer loss 更 principled 的优化目标
|
||||
3. **shortcut 的诊断工具**:如果 Acc 高但 I(L; S) 低 → 模型可能在利用 shortcut 而非真正推理
|
||||
4. **推理链的可审计性**:潜推理的可解码性是性能的前提条件 → "黑盒推理"不太可能存在
|
||||
|
||||
## 启示
|
||||
|
||||
对 Agent 系统设计的含义:
|
||||
- 内部推理链的可重建性不应视为可选——它是性能的**必要前提**
|
||||
- 仅基于最终输出奖励的训练(类似 outcome-only RL)可能导致潜推理过程退化
|
||||
- 过程监督(Trajectory + Space)通过最大化互信息来维持推理的语义保真度
|
||||
|
||||
## 参考
|
||||
|
||||
- [[latent-cot-supervision]]
|
||||
- [[unified-latent-probe]]
|
||||
- [[space-supervision]]
|
||||
- [[trajectory-supervision]]
|
||||
Reference in New Issue
Block a user