3.7 KiB
3.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders | 2026-06-17 | 2026-06-17 | paper |
|
|
high |
稀疏自编码器中概念学习与神经元解释的几何视角
Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026 arXiv: 2606.07007
核心问题
sparse-autoencoder 通过学习过完备稀疏表征改善了神经网络的可解释性,但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念?神经元解释和概念学习是一回事吗?
本文提出一个统一的集合论与几何框架来回答这些问题。
方法论核心
概念 = 数据点集合
从**数据扎根(data-grounded)**视角,概念被形式化为输入空间中的可测集合 C ⊆ X:
- 人类概念
C:人可通过示例定义的概念集合 - 模型概念
θ_M:SAE 神经元集合 M 的联合激活区域 - 概念学习:人类概念 C 与模型概念 θ 之间的集合对齐问题
SAE 门控分类
将 SAE 架构分为两类,对后续几何分析至关重要:
- absolute-gating:每个神经元的激活独立于其他神经元(ReLU SAE、Gated SAE、JumpReLU SAE)
- absolute-gating(relative gating):神经元的激活依赖于其他神经元(Top-K SAE、Matching Pursuit SAE、SPaDE)
绝对门控下,神经元激活区域 N_i = H_i^+ 是半空间;相对门控下,N_i ⊆ H_i^+ 且通常是超平面排列区域的子集。
概念学习的三个层次
- 概念检测(Concept Detection):θ 覆盖 C(最弱:
µ(C\θ)=0) - 概念分离(Concept Separation):θ 在数据支持上独占 C
- 概念近似(Concept Approximation):θ 在环境空间上紧致包围 C(最强,支持新概念发现)
关键定理
- Theorem 5.2:单神经元分离 C ↔
Conv(C) ∩ Conv(N) = ∅ - Theorem 5.4:多神经元单元分离 C ↔
Conv(C) ∩ N = ∅ - Theorem 5.8:C 可被任意好近似 ↔ C 是凸集(up to ν-null set)
- Theorem 5.10:组合容量约束
d ≳ (k_c! |C|)^{1/k_c}
SAE 现象的统一解释
| 现象 | 集合论表述 |
|---|---|
| [[polysemanticity | 多义性]] |
| [[feature-splitting | 特征分裂]] |
| [[feature-absorption | 特征吸收]] |
| [[feature-family | 特征家族]] |
| 层级概念 | C_i ⊂ C_j 期望 θ_{C_i} ⊂ θ_{C_j} |
概念学习 ≠ 神经元解释
通过 formal-concept-analysis,两者是关系 R ⊆ C × N 的两个方向:
- 概念学习:给定概念 C,找对应的神经元集合 M(正向映射 f)
- 神经元解释:给定神经元集合 M,描述它们共同表征的概念(反向映射 g)
- 两者通过 concept-lattice 组织多对多语义结构
实验验证
在合成数据上使用 ReLU SAE 和 Top-K SAE 验证:
- SNTA(单神经元总激活区域)和 TNSA(总神经元单激活)的几何形状
- SAE 大小和稀疏度对概念学习能力的影响