Files
myWiki/papers/geometric-sae-concepts.md

85 lines
3.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [interpretability, mechanistic-interpretability, sparse-autoencoder, geometry, concept-learning]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 稀疏自编码器中概念学习与神经元解释的几何视角
> Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026
> arXiv: [2606.07007](https://arxiv.org/abs/2606.07007)
## 核心问题
[[sparse-autoencoder|稀疏自编码器SAE]] 通过学习过完备稀疏表征改善了神经网络的可解释性,但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念?神经元解释和概念学习是一回事吗?
本文提出一个统一的集合论与几何框架来回答这些问题。
## 方法论核心
### 概念 = 数据点集合
从**数据扎根data-grounded**视角,概念被形式化为输入空间中的可测集合 `C ⊆ X`
- **人类概念** `C`:人可通过示例定义的概念集合
- **模型概念** `θ_M`SAE 神经元集合 M 的联合激活区域
- **概念学习**:人类概念 C 与模型概念 θ 之间的**集合对齐**问题
### SAE 门控分类
将 SAE 架构分为两类,对后续几何分析至关重要:
- **[[absolute-gating|绝对门控]]**每个神经元的激活独立于其他神经元ReLU SAE、Gated SAE、JumpReLU SAE
- **[[absolute-gating|相对门控]]**relative gating神经元的激活依赖于其他神经元Top-K SAE、Matching Pursuit SAE、SPaDE
绝对门控下,神经元激活区域 `N_i = H_i^+` 是半空间;相对门控下,`N_i ⊆ H_i^+` 且通常是超平面排列区域的子集。
### 概念学习的三个层次
1. **概念检测Concept Detection**:θ 覆盖 C最弱`µ(C\θ)=0`
2. **概念分离Concept Separation**:θ 在数据支持上独占 C
3. **概念近似Concept Approximation**:θ 在环境空间上紧致包围 C最强支持新概念发现
### 关键定理
- **Theorem 5.2**:单神经元分离 C ↔ `Conv(C) ∩ Conv(N) = ∅`
- **Theorem 5.4**:多神经元单元分离 C ↔ `Conv(C) ∩ N = ∅`
- **Theorem 5.8**C 可被任意好近似 ↔ C 是凸集up to ν-null set
- **Theorem 5.10**:组合容量约束 `d ≳ (k_c! |C|)^{1/k_c}`
## SAE 现象的统一解释
| 现象 | 集合论表述 |
|------|-----------|
| [[polysemanticity|多义性]] | 神经元 R 关联多个不相关概念 |
| [[feature-splitting|特征分裂]] | `θ ≈ θ_j`θ_j 近似不交 |
| [[feature-absorption|特征吸收]] | `µ(C_i ∩ θ_{C_j}^c) > 0`(稀疏惩罚阻止父子同激活) |
| [[feature-family|特征家族]] | `∩ θ_l ≠ ∅`(协同激活) |
| 层级概念 | `C_i ⊂ C_j` 期望 `θ_{C_i} ⊂ θ_{C_j}` |
## 概念学习 ≠ 神经元解释
通过 [[formal-concept-analysis|形式概念分析FCA]],两者是关系 `R ⊆ C × N` 的两个方向:
- **概念学习**:给定概念 C找对应的神经元集合 M正向映射 f
- **神经元解释**:给定神经元集合 M描述它们共同表征的概念反向映射 g
- 两者通过 [[concept-lattice|概念格]] 组织多对多语义结构
## 实验验证
在合成数据上使用 ReLU SAE 和 Top-K SAE 验证:
- SNTA单神经元总激活区域和 TNSA总神经元单激活的几何形状
- SAE 大小和稀疏度对概念学习能力的影响
## 参考
- [[sparse-autoencoder|SAE]]
- [[linear-representation-hypothesis|线性表征假设]]
- [[mechanistic-interpretability|机制可解释性]]
- [[superposition|叠加]]
- 来源:[原始存档](raw/papers/zhang-geometric-sae-2026.md)