SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

特征分裂 (Feature Splitting)

2026-06-17

2026-06-17

concept

interpretability

sparse-autoencoder

phenomena

raw/papers/zhang-geometric-sae-2026.md

high

特征分裂 (Feature Splitting)

特征分裂是 sparse-autoencoder 中最常见的经验现象之一——较小的 SAE 中的粗粒度神经元在较大的 SAE 中分裂为多个更精细的语义子成分。

形式化

若 θ 是粗神经元，θ₁,...,θᵣ 是分裂后的细粒度神经元：

θ ≈ ∪_{j=1}^{r} θ_j,   且 θ_j ∩ θ_l ≈ ∅ (j ≠ l)

近似不交性由稀疏约束保证：若分裂神经元大量重叠，数据会同时激活多个神经元，违反稀疏性。

必要条件

从 geometric-sae-concepts 的几何框架：

概念必须非凸到某个正程度才能分裂（凸概念不可进一步分解）
需满足概念分离的几何条件：Conv(C_j) ∩ Conv(N_j) = ∅
更大的 SAE = 更多的超平面 = 更精细的区域划分能力

为什么重要

层级概念的自然涌现："动物" → "哺乳动物" / "爬行动物" → ...
解释粒度可调：SAE 大小控制特征粒度
证明 SAE 学到的是"真实"结构而非人工注入

注意

geometric-sae-concepts 证明特征分裂不具有普遍性：并非所有概念都能分裂为更细粒度。层级概念（如父子关系）在不改变 SAE 架构的情况下可能难以学习。

参考