Files
myWiki/concepts/unified-latent-probe.md

2.2 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Unified Latent Probe (ULP) 2026-06-25 2026-06-25 concept
latent-cot
probing
mutual-information
evaluation
representation-analysis
latent-cot-supervision

Unified Latent Probe (ULP)

Unified Latent Probe (ULP)latent-cot-supervision 论文中提出的评估工具,用于量化潜状态中保留的可恢复推理信息。

设计原理

ULP 是一个轻量参数化解码器 q_φ(S_t | L_t),训练目标是最小化对显式推理步骤的重建损失:

L_Info(L_t, S_t) = E[-log q_φ(S_t | L_t)] ≥ H(S_t | L_t)

这个损失是条件熵 H(S_t | L_t) 的变分上界。因此:

  • L_Info 低 → H(S_t | L_t) 低 → I(L_t; S_t) 高 → 信息保真度高
  • L_Info 高 → 潜状态未能保留可恢复的推理语义

使用方法

  1. 冻结所有 baseline 的最佳 checkpoint
  2. 收集它们生成的潜状态 {L_t}
  3. 训练一个共享架构的 ULP 在这些潜状态上
  4. 收敛后的 L_Info 提供跨方法可比的信息度量

为什么比性能指标更精细

性能accuracy反映的是"潜状态对 final answer 是否有用",但可能被 shortcut 混淆。 ULP 直接测量"潜状态是否编码了显式推理步骤的语义内容"——这是一个更纯粹的信息论信号。

关键发现

通过 ULP 揭示的信息层次结构Information Hierarchy

方法 L_Info探针损失 Accuracy
OS-GC 最高(最差) 最低
OS-GR
OS-LATENT 中高 中低
PS-LATENT
PS-GR 最低(最优) 最高

信息质量与推理精度呈严格的反比关系——这促成了 information-performance-binding 的发现。

时空信息衰减

ULP 还可以跟踪每个潜位置的信息保持:

  • 随链长度增长L_Info 在后续位置系统性升高(信息衰减)
  • PS-GR 在每一步"重置"衰减 → 周期性校准
  • 未对齐方法OS-LATENT, PS-GC衰减更快 → 语义崩坏

参考