Files
myWiki/concepts/polysemanticity.md

58 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "多义性与单义性 (Polysemanticity & Monosemanticity)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, neurons, superposition]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 多义性与单义性 (Polysemanticity & Monosemanticity)
多义性polysemanticity是神经网络神经元层面的**核心可解释性挑战**——单个神经元同时编码多个不相关概念。
## 形式化定义
在 [[geometric-sae-concepts|Zhang et al. (2026)]] 的集合论框架中:
- **多义性**:关系 `R ⊆ C × N` 中,一个神经元关联多个不相关的人类概念
- **单义性**f 是近似注入的injective不同概念不分配给同一神经元
## 为什么发生
[[superposition|叠加superposition]] 是多义性的根本原因:
- 模型需要表示的**概念数量 > 可用神经元数量**
- 为解决这一线性代数瓶颈,模型将多个概念叠加在同一方向
- 这种压缩表征在模型中非常高效,但对人类不可读
## SAE 如何缓解
[[sparse-autoencoder|SAE]] 通过学习**过完备字典**d >> n缓解多义性
1. 引入比原始激活维度更多的 SAE 神经元
2. 稀疏性约束确保每次只有少数神经元激活
3. 将叠加表征"解耦"为更单义的特征
但单义性有条件——[[geometric-sae-concepts|Theorem 5.10]] 给出的组合容量约束:
```
d ≳ (k_c! |C|)^{1/k_c}
```
神经元数量 d 必须以超线性速率随概念数 |C| 增长。
## 在几何框架中
- 单神经元分离概念的条件:`Conv(C) ∩ Conv(N) = ∅`
- 实际中 LLM 激活空间中的概念常被扭曲,凸包不交的条件很难满足
- 因此即使在 SAE 中,残余的多义性仍然存在
## 参考
- [[sparse-autoencoder|SAE]]
- [[superposition|叠加]]
- [[mechanistic-interpretability|机制可解释性]]
- [[geometric-sae-concepts|几何框架论文]]