Files
myWiki/papers/geometric-sae-concepts.md

3.7 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders 2026-06-17 2026-06-17 paper
interpretability
mechanistic-interpretability
sparse-autoencoder
geometry
concept-learning
raw/papers/zhang-geometric-sae-2026.md
high

稀疏自编码器中概念学习与神经元解释的几何视角

Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026 arXiv: 2606.07007

核心问题

sparse-autoencoder 通过学习过完备稀疏表征改善了神经网络的可解释性,但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念?神经元解释和概念学习是一回事吗?

本文提出一个统一的集合论与几何框架来回答这些问题。

方法论核心

概念 = 数据点集合

从**数据扎根data-grounded**视角,概念被形式化为输入空间中的可测集合 C ⊆ X

  • 人类概念 C:人可通过示例定义的概念集合
  • 模型概念 θ_MSAE 神经元集合 M 的联合激活区域
  • 概念学习:人类概念 C 与模型概念 θ 之间的集合对齐问题

SAE 门控分类

将 SAE 架构分为两类,对后续几何分析至关重要:

  • absolute-gating每个神经元的激活独立于其他神经元ReLU SAE、Gated SAE、JumpReLU SAE
  • absolute-gatingrelative gating神经元的激活依赖于其他神经元Top-K SAE、Matching Pursuit SAE、SPaDE

绝对门控下,神经元激活区域 N_i = H_i^+ 是半空间;相对门控下,N_i ⊆ H_i^+ 且通常是超平面排列区域的子集。

概念学习的三个层次

  1. 概念检测Concept Detection:θ 覆盖 C最弱µ(C\θ)=0
  2. 概念分离Concept Separation:θ 在数据支持上独占 C
  3. 概念近似Concept Approximation:θ 在环境空间上紧致包围 C最强支持新概念发现

关键定理

  • Theorem 5.2:单神经元分离 C ↔ Conv(C) ∩ Conv(N) = ∅
  • Theorem 5.4:多神经元单元分离 C ↔ Conv(C) ∩ N = ∅
  • Theorem 5.8C 可被任意好近似 ↔ C 是凸集up to ν-null set
  • Theorem 5.10:组合容量约束 d ≳ (k_c! |C|)^{1/k_c}

SAE 现象的统一解释

现象 集合论表述
[[polysemanticity 多义性]]
[[feature-splitting 特征分裂]]
[[feature-absorption 特征吸收]]
[[feature-family 特征家族]]
层级概念 C_i ⊂ C_j 期望 θ_{C_i} ⊂ θ_{C_j}

概念学习 ≠ 神经元解释

通过 formal-concept-analysis,两者是关系 R ⊆ C × N 的两个方向:

  • 概念学习:给定概念 C找对应的神经元集合 M正向映射 f
  • 神经元解释:给定神经元集合 M描述它们共同表征的概念反向映射 g
  • 两者通过 concept-lattice 组织多对多语义结构

实验验证

在合成数据上使用 ReLU SAE 和 Top-K SAE 验证:

  • SNTA单神经元总激活区域和 TNSA总神经元单激活的几何形状
  • SAE 大小和稀疏度对概念学习能力的影响

参考