20260617:目前有914 页
This commit is contained in:
84
papers/geometric-sae-concepts.md
Normal file
84
papers/geometric-sae-concepts.md
Normal file
@@ -0,0 +1,84 @@
|
||||
---
|
||||
title: "A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: paper
|
||||
tags: [interpretability, mechanistic-interpretability, sparse-autoencoder, geometry, concept-learning]
|
||||
sources: [raw/papers/zhang-geometric-sae-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 稀疏自编码器中概念学习与神经元解释的几何视角
|
||||
|
||||
> Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026
|
||||
> arXiv: [2606.07007](https://arxiv.org/abs/2606.07007)
|
||||
|
||||
## 核心问题
|
||||
|
||||
[[sparse-autoencoder|稀疏自编码器(SAE)]] 通过学习过完备稀疏表征改善了神经网络的可解释性,但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念?神经元解释和概念学习是一回事吗?
|
||||
|
||||
本文提出一个统一的集合论与几何框架来回答这些问题。
|
||||
|
||||
## 方法论核心
|
||||
|
||||
### 概念 = 数据点集合
|
||||
|
||||
从**数据扎根(data-grounded)**视角,概念被形式化为输入空间中的可测集合 `C ⊆ X`:
|
||||
|
||||
- **人类概念** `C`:人可通过示例定义的概念集合
|
||||
- **模型概念** `θ_M`:SAE 神经元集合 M 的联合激活区域
|
||||
- **概念学习**:人类概念 C 与模型概念 θ 之间的**集合对齐**问题
|
||||
|
||||
### SAE 门控分类
|
||||
|
||||
将 SAE 架构分为两类,对后续几何分析至关重要:
|
||||
|
||||
- **[[absolute-gating|绝对门控]]**:每个神经元的激活独立于其他神经元(ReLU SAE、Gated SAE、JumpReLU SAE)
|
||||
- **[[absolute-gating|相对门控]]**(relative gating):神经元的激活依赖于其他神经元(Top-K SAE、Matching Pursuit SAE、SPaDE)
|
||||
|
||||
绝对门控下,神经元激活区域 `N_i = H_i^+` 是半空间;相对门控下,`N_i ⊆ H_i^+` 且通常是超平面排列区域的子集。
|
||||
|
||||
### 概念学习的三个层次
|
||||
|
||||
1. **概念检测(Concept Detection)**:θ 覆盖 C(最弱:`µ(C\θ)=0`)
|
||||
2. **概念分离(Concept Separation)**:θ 在数据支持上独占 C
|
||||
3. **概念近似(Concept Approximation)**:θ 在环境空间上紧致包围 C(最强,支持新概念发现)
|
||||
|
||||
### 关键定理
|
||||
|
||||
- **Theorem 5.2**:单神经元分离 C ↔ `Conv(C) ∩ Conv(N) = ∅`
|
||||
- **Theorem 5.4**:多神经元单元分离 C ↔ `Conv(C) ∩ N = ∅`
|
||||
- **Theorem 5.8**:C 可被任意好近似 ↔ C 是凸集(up to ν-null set)
|
||||
- **Theorem 5.10**:组合容量约束 `d ≳ (k_c! |C|)^{1/k_c}`
|
||||
|
||||
## SAE 现象的统一解释
|
||||
|
||||
| 现象 | 集合论表述 |
|
||||
|------|-----------|
|
||||
| [[polysemanticity|多义性]] | 神经元 R 关联多个不相关概念 |
|
||||
| [[feature-splitting|特征分裂]] | `θ ≈ ∪ θ_j`,θ_j 近似不交 |
|
||||
| [[feature-absorption|特征吸收]] | `µ(C_i ∩ θ_{C_j}^c) > 0`(稀疏惩罚阻止父子同激活) |
|
||||
| [[feature-family|特征家族]] | `∩ θ_l ≠ ∅`(协同激活) |
|
||||
| 层级概念 | `C_i ⊂ C_j` 期望 `θ_{C_i} ⊂ θ_{C_j}` |
|
||||
|
||||
## 概念学习 ≠ 神经元解释
|
||||
|
||||
通过 [[formal-concept-analysis|形式概念分析(FCA)]],两者是关系 `R ⊆ C × N` 的两个方向:
|
||||
|
||||
- **概念学习**:给定概念 C,找对应的神经元集合 M(正向映射 f)
|
||||
- **神经元解释**:给定神经元集合 M,描述它们共同表征的概念(反向映射 g)
|
||||
- 两者通过 [[concept-lattice|概念格]] 组织多对多语义结构
|
||||
|
||||
## 实验验证
|
||||
|
||||
在合成数据上使用 ReLU SAE 和 Top-K SAE 验证:
|
||||
- SNTA(单神经元总激活区域)和 TNSA(总神经元单激活)的几何形状
|
||||
- SAE 大小和稀疏度对概念学习能力的影响
|
||||
|
||||
## 参考
|
||||
|
||||
- [[sparse-autoencoder|SAE]]
|
||||
- [[linear-representation-hypothesis|线性表征假设]]
|
||||
- [[mechanistic-interpretability|机制可解释性]]
|
||||
- [[superposition|叠加]]
|
||||
- 来源:[原始存档](raw/papers/zhang-geometric-sae-2026.md)
|
||||
Reference in New Issue
Block a user