1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 叠加 (Superposition) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
叠加 (Superposition)
叠加(superposition)是神经网络中可表示概念数 > 可用神经元数时出现的压缩表征现象——多个概念被编码在同一方向的"折叠空间"中。
核心矛盾
模型需要表示 N 个概念,但只有 d 个神经元(d < N)。线性代数不允许 d 维空间中有 N 个正交方向。模型的"解决方案"是将多个概念叠加到同一方向。
为什么发生
- 容量瓶颈:高维语义空间必须嵌入低维激活空间
- 效率驱动:共享方向比独立方向更省参数
- 稀疏利用:利用概念使用的稀疏性(不是所有概念同时出现)
后果
- polysemanticity:单神经元无法被解释为"X 概念检测器"
- 解释困难:激活模式的线性组合不是直观的语义组合
- 需要 SAE:sparse-autoencoder 通过过完备字典 "解叠"
与线性表征假设的关系
linear-representation-hypothesis 声称概念 = 激活空间中的方向。叠加表明这最多是近似——真正的表征是多个方向的叠加,SAE 的目标是恢复这些被压缩的方向。
几何视角
geometric-sae-concepts 从集合论角度重新审视叠加:
- 概念不再只是向量方向,而是任意可测集合
- 叠加 = 集合之间在低维几何空间中的不可分离性
- 凸包不交是可分离的充要条件