超平面排列 (Hyperplane Arrangements)

超平面排列是 sparse-autoencoder 几何分析的基础数学结构——每个 SAE 神经元定义一个将激活空间分割的超平面，所有神经元的超平面共同形成复杂的区域划分。

定义

每个 SAE 神经元 i 定义超平面：

H_i = {x : ⟨w_i, x⟩ + b_i = 0}

其中 w_i 是编码器权重向量，b_i 是偏置。

所有神经元的超平面将空间分割为若干区域——每个区域对应一个激活模式（TNSA：Total Neuron Single Activation）：

R_s = ∩_{i∈[d]} H_i^{σ_{s,i}}

其中 σ_{s,i} ∈ {+, -} 指示神经元 i 在模式 s 下是否激活。

超平面排列的区域数量决定了 SAE 最大可区分的激活模式数，从而决定了可独立表征的概念数：

geometric-sae-concepts 利用超平面排列分析：

Su et al. (2026) 将 Top-K MoE 的专家选择分析为超平面排列问题——与 Top-K SAE 共享同一数学框架。