1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Representation Validity | 2026-06-01 | 2026-06-01 | concept |
|
|
Representation Validity(表示有效性)
定义
表示有效性指中间层激活被下游网络层可靠解码的程度。在激活流形框架中(Xu et al., 2026),有效性 V_l(h) 在流形 M_l 附近最高,随激活偏离流形而下降。
形式化
存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$:
- $V_l(h) \approx 1$:h 靠近 $M_l$,下游解码稳定
- $V_l(h) \ll 1$:h 远离 $M_l$,解码不可靠 → 输出崩坏
与 Steering 的关系
导向干预 \tilde{h}_l(m) = h_l + m\Delta h 将激活沿一维方向平移:
- 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
- 当平移过量 → 表示失效 → 输出不连贯、违反指令
与 Token-Level 困惑度的区别
有效性是中间表示级别的概念,不同于输出层的困惑度:
- 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同)
- 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容
相关概念
- activation-manifold — 流形几何
- validity-decay —
D(m)函数量化有效性衰减 - steering-dynamics — 有效性衰减如何驱动三阶段动态
- xu-why-steering-works — 源论文