---
title: "Representation Validity"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [representation-geometry, steering, interpretability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---

# Representation Validity（表示有效性）

## 定义

表示有效性指中间层激活被下游网络层**可靠解码**的程度。在激活流形框架中（Xu et al., 2026），有效性 $V_l(h)$ 在流形 $M_l$ 附近最高，随激活偏离流形而下降。

## 形式化

存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$：
- $V_l(h) \approx 1$：h 靠近 $M_l$，下游解码稳定
- $V_l(h) \ll 1$：h 远离 $M_l$，解码不可靠 → 输出崩坏

## 与 Steering 的关系

导向干预 $\tilde{h}_l(m) = h_l + m\Delta h$ 将激活沿一维方向平移：
- 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
- 当平移过量 → 表示失效 → 输出不连贯、违反指令

## 与 Token-Level 困惑度的区别

有效性是**中间表示级别**的概念，不同于输出层的困惑度：
- 高困惑度但高有效性 → 可能是概念冲突（模型理解但不赞同）
- 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容

## 相关概念

- [[activation-manifold]] — 流形几何
- [[validity-decay]] — $D(m)$ 函数量化有效性衰减
- [[steering-dynamics]] — 有效性衰减如何驱动三阶段动态
- [[xu-why-steering-works]] — 源论文