1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 多义性与单义性 (Polysemanticity & Monosemanticity) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
多义性与单义性 (Polysemanticity & Monosemanticity)
多义性(polysemanticity)是神经网络神经元层面的核心可解释性挑战——单个神经元同时编码多个不相关概念。
形式化定义
在 geometric-sae-concepts 的集合论框架中:
- 多义性:关系
R ⊆ C × N中,一个神经元关联多个不相关的人类概念 - 单义性:f 是近似注入的(injective),不同概念不分配给同一神经元
为什么发生
superposition 是多义性的根本原因:
- 模型需要表示的概念数量 > 可用神经元数量
- 为解决这一线性代数瓶颈,模型将多个概念叠加在同一方向
- 这种压缩表征在模型中非常高效,但对人类不可读
SAE 如何缓解
sparse-autoencoder 通过学习过完备字典(d >> n)缓解多义性:
- 引入比原始激活维度更多的 SAE 神经元
- 稀疏性约束确保每次只有少数神经元激活
- 将叠加表征"解耦"为更单义的特征
但单义性有条件——geometric-sae-concepts 给出的组合容量约束:
d ≳ (k_c! |C|)^{1/k_c}
神经元数量 d 必须以超线性速率随概念数 |C| 增长。
在几何框架中
- 单神经元分离概念的条件:
Conv(C) ∩ Conv(N) = ∅ - 实际中 LLM 激活空间中的概念常被扭曲,凸包不交的条件很难满足
- 因此即使在 SAE 中,残余的多义性仍然存在