Files
myWiki/concepts/superposition.md

49 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "叠加 (Superposition)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, representation-learning, theory]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 叠加 (Superposition)
叠加superposition是神经网络中**可表示概念数 > 可用神经元数**时出现的压缩表征现象——多个概念被编码在同一方向的"折叠空间"中。
## 核心矛盾
模型需要表示 N 个概念,但只有 d 个神经元d < N)。线性代数不允许 d 维空间中有 N 个正交方向模型的"解决方案"是将多个概念叠加到同一方向
## 为什么发生
- **容量瓶颈**高维语义空间必须嵌入低维激活空间
- **效率驱动**共享方向比独立方向更省参数
- **稀疏利用**利用概念使用的稀疏性不是所有概念同时出现
## 后果
- **[[polysemanticity|多义性]]**单神经元无法被解释为"X 概念检测器"
- **解释困难**激活模式的线性组合不是直观的语义组合
- **需要 SAE**[[sparse-autoencoder|SAE]] 通过过完备字典 "解叠"
## 与线性表征假设的关系
[[linear-representation-hypothesis|线性表征假设]] 声称概念 = 激活空间中的方向。叠加表明这最多是**近似**——真正的表征是多个方向的叠加SAE 的目标是恢复这些被压缩的方向
## 几何视角
[[geometric-sae-concepts|Zhang et al. (2026)]] 从集合论角度重新审视叠加
- 概念不再只是向量方向而是任意可测集合
- 叠加 = 集合之间在低维几何空间中的不可分离性
- 凸包不交是可分离的充要条件
## 参考
- [[polysemanticity|多义性]]
- [[sparse-autoencoder|SAE]]
- [[linear-representation-hypothesis|线性表征假设]]
- [[geometric-sae-concepts|几何框架论文]]