20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/geometric-sae-concepts.md
+++ b/papers/geometric-sae-concepts.md
@@ -0,0 +1,84 @@
+---
+title: "A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [interpretability, mechanistic-interpretability, sparse-autoencoder, geometry, concept-learning]
+sources: [raw/papers/zhang-geometric-sae-2026.md]
+confidence: high
+---
+
+# 稀疏自编码器中概念学习与神经元解释的几何视角
+
+> Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026
+> arXiv: [2606.07007](https://arxiv.org/abs/2606.07007)
+
+## 核心问题
+
+[[sparse-autoencoder|稀疏自编码器（SAE）]] 通过学习过完备稀疏表征改善了神经网络的可解释性，但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念？神经元解释和概念学习是一回事吗？
+
+本文提出一个统一的集合论与几何框架来回答这些问题。
+
+## 方法论核心
+
+### 概念 = 数据点集合
+
+从**数据扎根（data-grounded）**视角，概念被形式化为输入空间中的可测集合 `C ⊆ X`：
+
+- **人类概念** `C`：人可通过示例定义的概念集合
+- **模型概念** `θ_M`：SAE 神经元集合 M 的联合激活区域
+- **概念学习**：人类概念 C 与模型概念 θ 之间的**集合对齐**问题
+
+### SAE 门控分类
+
+将 SAE 架构分为两类，对后续几何分析至关重要：
+
+- **[[absolute-gating|绝对门控]]**：每个神经元的激活独立于其他神经元（ReLU SAE、Gated SAE、JumpReLU SAE）
+- **[[absolute-gating|相对门控]]**（relative gating）：神经元的激活依赖于其他神经元（Top-K SAE、Matching Pursuit SAE、SPaDE）
+
+绝对门控下，神经元激活区域 `N_i = H_i^+` 是半空间；相对门控下，`N_i ⊆ H_i^+` 且通常是超平面排列区域的子集。
+
+### 概念学习的三个层次
+
+1. **概念检测（Concept Detection）**：θ 覆盖 C（最弱：`µ(C\θ)=0`）
+2. **概念分离（Concept Separation）**：θ 在数据支持上独占 C
+3. **概念近似（Concept Approximation）**：θ 在环境空间上紧致包围 C（最强，支持新概念发现）
+
+### 关键定理
+
+- **Theorem 5.2**：单神经元分离 C ↔ `Conv(C) ∩ Conv(N) = ∅`
+- **Theorem 5.4**：多神经元单元分离 C ↔ `Conv(C) ∩ N = ∅`
+- **Theorem 5.8**：C 可被任意好近似 ↔ C 是凸集（up to ν-null set）
+- **Theorem 5.10**：组合容量约束 `d ≳ (k_c! |C|)^{1/k_c}`
+
+## SAE 现象的统一解释
+
+| 现象 | 集合论表述 |
+|------|-----------|
+| [[polysemanticity|多义性]] | 神经元 R 关联多个不相关概念 |
+| [[feature-splitting|特征分裂]] | `θ ≈ ∪ θ_j`，θ_j 近似不交 |
+| [[feature-absorption|特征吸收]] | `µ(C_i ∩ θ_{C_j}^c) > 0`（稀疏惩罚阻止父子同激活） |
+| [[feature-family|特征家族]] | `∩ θ_l ≠ ∅`（协同激活） |
+| 层级概念 | `C_i ⊂ C_j` 期望 `θ_{C_i} ⊂ θ_{C_j}` |
+
+## 概念学习 ≠ 神经元解释
+
+通过 [[formal-concept-analysis|形式概念分析（FCA）]]，两者是关系 `R ⊆ C × N` 的两个方向：
+
+- **概念学习**：给定概念 C，找对应的神经元集合 M（正向映射 f）
+- **神经元解释**：给定神经元集合 M，描述它们共同表征的概念（反向映射 g）
+- 两者通过 [[concept-lattice|概念格]] 组织多对多语义结构
+
+## 实验验证
+
+在合成数据上使用 ReLU SAE 和 Top-K SAE 验证：
+- SNTA（单神经元总激活区域）和 TNSA（总神经元单激活）的几何形状
+- SAE 大小和稀疏度对概念学习能力的影响
+
+## 参考
+
+- [[sparse-autoencoder|SAE]]
+- [[linear-representation-hypothesis|线性表征假设]]
+- [[mechanistic-interpretability|机制可解释性]]
+- [[superposition|叠加]]
+- 来源：[原始存档](raw/papers/zhang-geometric-sae-2026.md)