20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/polysemanticity.md
+++ b/concepts/polysemanticity.md
@@ -0,0 +1,57 @@
+---
+title: "多义性与单义性 (Polysemanticity & Monosemanticity)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [interpretability, neurons, superposition]
+sources: [raw/papers/zhang-geometric-sae-2026.md]
+confidence: high
+---
+
+# 多义性与单义性 (Polysemanticity & Monosemanticity)
+
+多义性（polysemanticity）是神经网络神经元层面的**核心可解释性挑战**——单个神经元同时编码多个不相关概念。
+
+## 形式化定义
+
+在 [[geometric-sae-concepts|Zhang et al. (2026)]] 的集合论框架中：
+
+- **多义性**：关系 `R ⊆ C × N` 中，一个神经元关联多个不相关的人类概念
+- **单义性**：f 是近似注入的（injective），不同概念不分配给同一神经元
+
+## 为什么发生
+
+[[superposition|叠加（superposition）]] 是多义性的根本原因：
+
+- 模型需要表示的**概念数量 > 可用神经元数量**
+- 为解决这一线性代数瓶颈，模型将多个概念叠加在同一方向
+- 这种压缩表征在模型中非常高效，但对人类不可读
+
+## SAE 如何缓解
+
+[[sparse-autoencoder|SAE]] 通过学习**过完备字典**（d >> n）缓解多义性：
+
+1. 引入比原始激活维度更多的 SAE 神经元
+2. 稀疏性约束确保每次只有少数神经元激活
+3. 将叠加表征"解耦"为更单义的特征
+
+但单义性有条件——[[geometric-sae-concepts|Theorem 5.10]] 给出的组合容量约束：
+
+```
+d ≳ (k_c! |C|)^{1/k_c}
+```
+
+神经元数量 d 必须以超线性速率随概念数 |C| 增长。
+
+## 在几何框架中
+
+- 单神经元分离概念的条件：`Conv(C) ∩ Conv(N) = ∅`
+- 实际中 LLM 激活空间中的概念常被扭曲，凸包不交的条件很难满足
+- 因此即使在 SAE 中，残余的多义性仍然存在
+
+## 参考
+
+- [[sparse-autoencoder|SAE]]
+- [[superposition|叠加]]
+- [[mechanistic-interpretability|机制可解释性]]
+- [[geometric-sae-concepts|几何框架论文]]