SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

多义性与单义性 (Polysemanticity & Monosemanticity)

2026-06-17

2026-06-17

concept

interpretability

neurons

superposition

raw/papers/zhang-geometric-sae-2026.md

high

多义性与单义性 (Polysemanticity & Monosemanticity)

多义性（polysemanticity）是神经网络神经元层面的核心可解释性挑战——单个神经元同时编码多个不相关概念。

形式化定义

在 geometric-sae-concepts 的集合论框架中：

多义性：关系 R ⊆ C × N 中，一个神经元关联多个不相关的人类概念
单义性：f 是近似注入的（injective），不同概念不分配给同一神经元

为什么发生

superposition 是多义性的根本原因：

模型需要表示的概念数量 > 可用神经元数量
为解决这一线性代数瓶颈，模型将多个概念叠加在同一方向
这种压缩表征在模型中非常高效，但对人类不可读

SAE 如何缓解

sparse-autoencoder 通过学习过完备字典（d >> n）缓解多义性：

引入比原始激活维度更多的 SAE 神经元
稀疏性约束确保每次只有少数神经元激活
将叠加表征"解耦"为更单义的特征

但单义性有条件——geometric-sae-concepts 给出的组合容量约束：

d ≳ (k_c! |C|)^{1/k_c}

神经元数量 d 必须以超线性速率随概念数 |C| 增长。

在几何框架中

单神经元分离概念的条件：Conv(C) ∩ Conv(N) = ∅
实际中 LLM 激活空间中的概念常被扭曲，凸包不交的条件很难满足
因此即使在 SAE 中，残余的多义性仍然存在

参考