1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 超平面排列 (Hyperplane Arrangements) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
超平面排列 (Hyperplane Arrangements)
超平面排列是 sparse-autoencoder 几何分析的基础数学结构——每个 SAE 神经元定义一个将激活空间分割的超平面,所有神经元的超平面共同形成复杂的区域划分。
定义
每个 SAE 神经元 i 定义超平面:
H_i = {x : ⟨w_i, x⟩ + b_i = 0}
其中 w_i 是编码器权重向量,b_i 是偏置。
TNSA 区域
所有神经元的超平面将空间分割为若干区域——每个区域对应一个激活模式(TNSA:Total Neuron Single Activation):
R_s = ∩_{i∈[d]} H_i^{σ_{s,i}}
其中 σ_{s,i} ∈ {+, -} 指示神经元 i 在模式 s 下是否激活。
网络容量
超平面排列的区域数量决定了 SAE 最大可区分的激活模式数,从而决定了可独立表征的概念数:
- d 个超平面在 n 维空间中的最大区域数:
Σ_{i=0}^n C(d, i) - 这给出了模型容量的组合上界
在 SAE 中的应用
geometric-sae-concepts 利用超平面排列分析:
- 特征分裂的几何可能性和限制
- 概念分离的充要条件(凸包不交)
- 概念近似的误差下界(非凸概念的不可约误差)
- absolute-gating 的几何差异
与 Top-K MoE 的关联
Su et al. (2026) 将 Top-K MoE 的专家选择分析为超平面排列问题——与 Top-K SAE 共享同一数学框架。