SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.2 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Unified Latent Probe (ULP)

2026-06-25

2026-06-25

concept

latent-cot

probing

mutual-information

evaluation

representation-analysis

latent-cot-supervision

Unified Latent Probe (ULP)

Unified Latent Probe (ULP) 是 latent-cot-supervision 论文中提出的评估工具，用于量化潜状态中保留的可恢复推理信息。

设计原理

ULP 是一个轻量参数化解码器 q_φ(S_t | L_t)，训练目标是最小化对显式推理步骤的重建损失：

L_Info(L_t, S_t) = E[-log q_φ(S_t | L_t)] ≥ H(S_t | L_t)

这个损失是条件熵 H(S_t | L_t) 的变分上界。因此：

L_Info 低 → H(S_t | L_t) 低 → I(L_t; S_t) 高 → 信息保真度高
L_Info 高 → 潜状态未能保留可恢复的推理语义

使用方法

冻结所有 baseline 的最佳 checkpoint
收集它们生成的潜状态 {L_t}
训练一个共享架构的 ULP 在这些潜状态上
收敛后的 L_Info 提供跨方法可比的信息度量

为什么比性能指标更精细

性能（accuracy）反映的是"潜状态对 final answer 是否有用"，但可能被 shortcut 混淆。 ULP 直接测量"潜状态是否编码了显式推理步骤的语义内容"——这是一个更纯粹的信息论信号。

关键发现

通过 ULP 揭示的信息层次结构（Information Hierarchy）：

方法	L_Info（探针损失）	Accuracy
OS-GC	最高（最差）	最低
OS-GR	高	低
OS-LATENT	中高	中低
PS-LATENT	中	中
PS-GR	最低（最优）	最高

信息质量与推理精度呈严格的反比关系——这促成了 information-performance-binding 的发现。

时空信息衰减

ULP 还可以跟踪每个潜位置的信息保持：

随链长度增长，L_Info 在后续位置系统性升高（信息衰减）
PS-GR 在每一步"重置"衰减 → 周期性校准
未对齐方法（OS-LATENT, PS-GC）衰减更快 → 语义崩坏

参考