58 lines
1.9 KiB
Markdown
58 lines
1.9 KiB
Markdown
---
|
||
title: "多义性与单义性 (Polysemanticity & Monosemanticity)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [interpretability, neurons, superposition]
|
||
sources: [raw/papers/zhang-geometric-sae-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 多义性与单义性 (Polysemanticity & Monosemanticity)
|
||
|
||
多义性(polysemanticity)是神经网络神经元层面的**核心可解释性挑战**——单个神经元同时编码多个不相关概念。
|
||
|
||
## 形式化定义
|
||
|
||
在 [[geometric-sae-concepts|Zhang et al. (2026)]] 的集合论框架中:
|
||
|
||
- **多义性**:关系 `R ⊆ C × N` 中,一个神经元关联多个不相关的人类概念
|
||
- **单义性**:f 是近似注入的(injective),不同概念不分配给同一神经元
|
||
|
||
## 为什么发生
|
||
|
||
[[superposition|叠加(superposition)]] 是多义性的根本原因:
|
||
|
||
- 模型需要表示的**概念数量 > 可用神经元数量**
|
||
- 为解决这一线性代数瓶颈,模型将多个概念叠加在同一方向
|
||
- 这种压缩表征在模型中非常高效,但对人类不可读
|
||
|
||
## SAE 如何缓解
|
||
|
||
[[sparse-autoencoder|SAE]] 通过学习**过完备字典**(d >> n)缓解多义性:
|
||
|
||
1. 引入比原始激活维度更多的 SAE 神经元
|
||
2. 稀疏性约束确保每次只有少数神经元激活
|
||
3. 将叠加表征"解耦"为更单义的特征
|
||
|
||
但单义性有条件——[[geometric-sae-concepts|Theorem 5.10]] 给出的组合容量约束:
|
||
|
||
```
|
||
d ≳ (k_c! |C|)^{1/k_c}
|
||
```
|
||
|
||
神经元数量 d 必须以超线性速率随概念数 |C| 增长。
|
||
|
||
## 在几何框架中
|
||
|
||
- 单神经元分离概念的条件:`Conv(C) ∩ Conv(N) = ∅`
|
||
- 实际中 LLM 激活空间中的概念常被扭曲,凸包不交的条件很难满足
|
||
- 因此即使在 SAE 中,残余的多义性仍然存在
|
||
|
||
## 参考
|
||
|
||
- [[sparse-autoencoder|SAE]]
|
||
- [[superposition|叠加]]
|
||
- [[mechanistic-interpretability|机制可解释性]]
|
||
- [[geometric-sae-concepts|几何框架论文]]
|