Files
myWiki/concepts/feature-splitting.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
特征分裂 (Feature Splitting) 2026-06-17 2026-06-17 concept
interpretability
sparse-autoencoder
phenomena
raw/papers/zhang-geometric-sae-2026.md
high

特征分裂 (Feature Splitting)

特征分裂是 sparse-autoencoder 中最常见的经验现象之一——较小的 SAE 中的粗粒度神经元在较大的 SAE 中分裂为多个更精细的语义子成分

形式化

若 θ 是粗神经元,θ₁,...,θᵣ 是分裂后的细粒度神经元:

θ ≈ _{j=1}^{r} θ_j,   且 θ_j ∩ θ_l ≈ ∅ (j ≠ l)

近似不交性由稀疏约束保证:若分裂神经元大量重叠,数据会同时激活多个神经元,违反稀疏性。

必要条件

geometric-sae-concepts 的几何框架:

  • 概念必须非凸到某个正程度才能分裂(凸概念不可进一步分解)
  • 需满足概念分离的几何条件:Conv(C_j) ∩ Conv(N_j) = ∅
  • 更大的 SAE = 更多的超平面 = 更精细的区域划分能力

为什么重要

  • 层级概念的自然涌现"动物" → "哺乳动物" / "爬行动物" → ...
  • 解释粒度可调SAE 大小控制特征粒度
  • 证明 SAE 学到的是"真实"结构而非人工注入

注意

geometric-sae-concepts 证明特征分裂不具有普遍性:并非所有概念都能分裂为更细粒度。层级概念(如父子关系)在不改变 SAE 架构的情况下可能难以学习。

参考