SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

叠加 (Superposition)

2026-06-17

2026-06-17

concept

interpretability

representation-learning

theory

raw/papers/zhang-geometric-sae-2026.md

high

叠加 (Superposition)

叠加（superposition）是神经网络中可表示概念数 > 可用神经元数时出现的压缩表征现象——多个概念被编码在同一方向的"折叠空间"中。

核心矛盾

模型需要表示 N 个概念，但只有 d 个神经元（d < N）。线性代数不允许 d 维空间中有 N 个正交方向。模型的"解决方案"是将多个概念叠加到同一方向。

为什么发生

容量瓶颈：高维语义空间必须嵌入低维激活空间
效率驱动：共享方向比独立方向更省参数
稀疏利用：利用概念使用的稀疏性（不是所有概念同时出现）

后果

polysemanticity：单神经元无法被解释为"X 概念检测器"
解释困难：激活模式的线性组合不是直观的语义组合
需要 SAE：sparse-autoencoder 通过过完备字典 "解叠"

与线性表征假设的关系

linear-representation-hypothesis 声称概念 = 激活空间中的方向。叠加表明这最多是近似——真正的表征是多个方向的叠加，SAE 的目标是恢复这些被压缩的方向。

几何视角

geometric-sae-concepts 从集合论角度重新审视叠加：

概念不再只是向量方向，而是任意可测集合
叠加 = 集合之间在低维几何空间中的不可分离性
凸包不交是可分离的充要条件

参考