Files
myWiki/concepts/hyperplane-arrangements.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
超平面排列 (Hyperplane Arrangements) 2026-06-17 2026-06-17 concept
geometry
capacity
neural-networks
theory
raw/papers/zhang-geometric-sae-2026.md
high

超平面排列 (Hyperplane Arrangements)

超平面排列是 sparse-autoencoder 几何分析的基础数学结构——每个 SAE 神经元定义一个将激活空间分割的超平面,所有神经元的超平面共同形成复杂的区域划分。

定义

每个 SAE 神经元 i 定义超平面:

H_i = {x : ⟨w_i, x⟩ + b_i = 0}

其中 w_i 是编码器权重向量,b_i 是偏置。

TNSA 区域

所有神经元的超平面将空间分割为若干区域——每个区域对应一个激活模式TNSATotal Neuron Single Activation

R_s = ∩_{i∈[d]} H_i^{σ_{s,i}}

其中 σ_{s,i} ∈ {+, -} 指示神经元 i 在模式 s 下是否激活。

网络容量

超平面排列的区域数量决定了 SAE 最大可区分的激活模式数,从而决定了可独立表征的概念数:

  • d 个超平面在 n 维空间中的最大区域数:Σ_{i=0}^n C(d, i)
  • 这给出了模型容量的组合上界

在 SAE 中的应用

geometric-sae-concepts 利用超平面排列分析:

  1. 特征分裂的几何可能性和限制
  2. 概念分离的充要条件(凸包不交)
  3. 概念近似的误差下界(非凸概念的不可约误差)
  4. absolute-gating 的几何差异

与 Top-K MoE 的关联

Su et al. (2026) 将 Top-K MoE 的专家选择分析为超平面排列问题——与 Top-K SAE 共享同一数学框架。

参考