SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Information-Performance Binding

2026-06-25

2026-06-25

concept

latent-cot

mutual-information

reasoning

information-theory

evaluation

latent-cot-supervision

Information-Performance Binding

Information-Performance Binding（信息-性能绑定）是 latent-cot-supervision 论文的核心发现：推理精度被潜链中保留的互信息严格上界约束。

形式化表述

令 Acc 为推理精度，I(L; S) 为潜状态与显式推理步骤之间的互信息（通过 unified-latent-probe 的变分下界近似）。实验揭示：

Acc ∝ -L_Info ∝ I(L; S)

即：推理精度与 ULP 探针损失呈严格反比，即与互信息呈严格正比。

实验证据

图 4 展示了所有方法的 ULP 损失 vs Accuracy 散点图：

OS-GC：高 L_Info，低 Acc
OS-GR / OS-LATENT：中高 L_Info，中低 Acc
PS-LATENT：中 L_Info，中 Acc
PS-GR：最低 L_Info，最高 Acc

信息层次结构清晰可辨，无例外。

含义

潜推理质量可度量：ULP 提供一个独立于最终任务的推理质量度量
监督策略的优化目标：最大化 I(L_t; S_t) 是比最小化 answer loss 更 principled 的优化目标
shortcut 的诊断工具：如果 Acc 高但 I(L; S) 低 → 模型可能在利用 shortcut 而非真正推理
推理链的可审计性：潜推理的可解码性是性能的前提条件 → "黑盒推理"不太可能存在

启示

对 Agent 系统设计的含义：

内部推理链的可重建性不应视为可选——它是性能的必要前提
仅基于最终输出奖励的训练（类似 outcome-only RL）可能导致潜推理过程退化
过程监督（Trajectory + Space）通过最大化互信息来维持推理的语义保真度

参考