49 lines
1.8 KiB
Markdown
49 lines
1.8 KiB
Markdown
---
|
||
title: "叠加 (Superposition)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [interpretability, representation-learning, theory]
|
||
sources: [raw/papers/zhang-geometric-sae-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 叠加 (Superposition)
|
||
|
||
叠加(superposition)是神经网络中**可表示概念数 > 可用神经元数**时出现的压缩表征现象——多个概念被编码在同一方向的"折叠空间"中。
|
||
|
||
## 核心矛盾
|
||
|
||
模型需要表示 N 个概念,但只有 d 个神经元(d < N)。线性代数不允许 d 维空间中有 N 个正交方向。模型的"解决方案"是将多个概念叠加到同一方向。
|
||
|
||
## 为什么发生
|
||
|
||
- **容量瓶颈**:高维语义空间必须嵌入低维激活空间
|
||
- **效率驱动**:共享方向比独立方向更省参数
|
||
- **稀疏利用**:利用概念使用的稀疏性(不是所有概念同时出现)
|
||
|
||
## 后果
|
||
|
||
- **[[polysemanticity|多义性]]**:单神经元无法被解释为"X 概念检测器"
|
||
- **解释困难**:激活模式的线性组合不是直观的语义组合
|
||
- **需要 SAE**:[[sparse-autoencoder|SAE]] 通过过完备字典 "解叠"
|
||
|
||
## 与线性表征假设的关系
|
||
|
||
[[linear-representation-hypothesis|线性表征假设]] 声称概念 = 激活空间中的方向。叠加表明这最多是**近似**——真正的表征是多个方向的叠加,SAE 的目标是恢复这些被压缩的方向。
|
||
|
||
## 几何视角
|
||
|
||
[[geometric-sae-concepts|Zhang et al. (2026)]] 从集合论角度重新审视叠加:
|
||
|
||
- 概念不再只是向量方向,而是任意可测集合
|
||
- 叠加 = 集合之间在低维几何空间中的不可分离性
|
||
- 凸包不交是可分离的充要条件
|
||
|
||
## 参考
|
||
|
||
- [[polysemanticity|多义性]]
|
||
- [[sparse-autoencoder|SAE]]
|
||
- [[linear-representation-hypothesis|线性表征假设]]
|
||
- [[geometric-sae-concepts|几何框架论文]]
|