SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

3.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders

2026-06-17

2026-06-17

paper

interpretability

mechanistic-interpretability

sparse-autoencoder

geometry

concept-learning

raw/papers/zhang-geometric-sae-2026.md

high

稀疏自编码器中概念学习与神经元解释的几何视角

Chenhao Zhang, Chris Lin, Su-In Lee — University of Washington, 2026 arXiv: 2606.07007

核心问题

sparse-autoencoder 通过学习过完备稀疏表征改善了神经网络的可解释性，但**"概念"和"学习"缺乏形式化定义**。什么是 SAE 真正"学会"了一个人类概念？神经元解释和概念学习是一回事吗？

本文提出一个统一的集合论与几何框架来回答这些问题。

方法论核心

概念 = 数据点集合

从**数据扎根（data-grounded）**视角，概念被形式化为输入空间中的可测集合 C ⊆ X：

人类概念 C：人可通过示例定义的概念集合
模型概念 θ_M：SAE 神经元集合 M 的联合激活区域
概念学习：人类概念 C 与模型概念 θ 之间的集合对齐问题

SAE 门控分类

将 SAE 架构分为两类，对后续几何分析至关重要：

absolute-gating：每个神经元的激活独立于其他神经元（ReLU SAE、Gated SAE、JumpReLU SAE）
absolute-gating（relative gating）：神经元的激活依赖于其他神经元（Top-K SAE、Matching Pursuit SAE、SPaDE）

绝对门控下，神经元激活区域 N_i = H_i^+ 是半空间；相对门控下，N_i ⊆ H_i^+ 且通常是超平面排列区域的子集。

概念学习的三个层次

概念检测（Concept Detection）：θ 覆盖 C（最弱：µ(C\θ)=0）
概念分离（Concept Separation）：θ 在数据支持上独占 C
概念近似（Concept Approximation）：θ 在环境空间上紧致包围 C（最强，支持新概念发现）

关键定理

Theorem 5.2：单神经元分离 C ↔ Conv(C) ∩ Conv(N) = ∅
Theorem 5.4：多神经元单元分离 C ↔ Conv(C) ∩ N = ∅
Theorem 5.8：C 可被任意好近似 ↔ C 是凸集（up to ν-null set）
Theorem 5.10：组合容量约束 d ≳ (k_c! |C|)^{1/k_c}

SAE 现象的统一解释

现象	集合论表述
[[polysemanticity	多义性]]
[[feature-splitting	特征分裂]]
[[feature-absorption	特征吸收]]
[[feature-family	特征家族]]
层级概念	`C_i ⊂ C_j` 期望 `θ_{C_i} ⊂ θ_{C_j}`

概念学习 ≠ 神经元解释

通过 formal-concept-analysis，两者是关系 R ⊆ C × N 的两个方向：

概念学习：给定概念 C，找对应的神经元集合 M（正向映射 f）
神经元解释：给定神经元集合 M，描述它们共同表征的概念（反向映射 g）
两者通过 concept-lattice 组织多对多语义结构

实验验证

在合成数据上使用 ReLU SAE 和 Top-K SAE 验证：

SNTA（单神经元总激活区域）和 TNSA（总神经元单激活）的几何形状
SAE 大小和稀疏度对概念学习能力的影响

参考