稀疏自编码器 (Sparse Autoencoder)

SAE 是机制可解释性的核心工具——通过学过完备稀疏表征将神经网络激活分解为可解释特征。

基本结构

z = W_enc (x - b_pre) + b_enc    # 编码：从 n 维激活映射到 d 维 (d >> n)
a = Act(z)                        # 稀疏激活
x̂ = W_dec a + b_dec              # 解码：重构原始激活

geometric-sae-concepts 将 SAE 分为两类：

每个神经元激活独立于其他：

神经元激活依赖于其他神经元（竞争选择）：

SAE 的基础假设是linear-representation-hypothesis：语义概念对应于激活空间中的方向并可线性组合。SAE 通过稀疏性强制将这些方向解耦，使单个神经元趋向polysemanticity。