--- title: "特征分裂 (Feature Splitting)" created: 2026-06-17 updated: 2026-06-17 type: concept tags: [interpretability, sparse-autoencoder, phenomena] sources: [raw/papers/zhang-geometric-sae-2026.md] confidence: high --- # 特征分裂 (Feature Splitting) 特征分裂是 [[sparse-autoencoder|SAE]] 中最常见的经验现象之一——较小的 SAE 中的粗粒度神经元在较大的 SAE 中**分裂为多个更精细的语义子成分**。 ## 形式化 若 θ 是粗神经元,θ₁,...,θᵣ 是分裂后的细粒度神经元: ``` θ ≈ ∪_{j=1}^{r} θ_j, 且 θ_j ∩ θ_l ≈ ∅ (j ≠ l) ``` 近似不交性由稀疏约束保证:若分裂神经元大量重叠,数据会同时激活多个神经元,违反稀疏性。 ## 必要条件 从 [[geometric-sae-concepts|Zhang et al. (2026)]] 的几何框架: - 概念必须**非凸到某个正程度**才能分裂(凸概念不可进一步分解) - 需满足概念分离的几何条件:`Conv(C_j) ∩ Conv(N_j) = ∅` - 更大的 SAE = 更多的超平面 = 更精细的区域划分能力 ## 为什么重要 - **层级概念的自然涌现**:"动物" → "哺乳动物" / "爬行动物" → ... - **解释粒度可调**:SAE 大小控制特征粒度 - **证明 SAE 学到的是"真实"结构**而非人工注入 ## 注意 [[geometric-sae-concepts|Zhang et al. (2026)]] 证明特征分裂**不具有普遍性**:并非所有概念都能分裂为更细粒度。层级概念(如父子关系)在不改变 SAE 架构的情况下可能难以学习。 ## 参考 - [[feature-absorption|特征吸收]] - [[feature-family|特征家族]] - [[sparse-autoencoder|SAE]] - [[geometric-sae-concepts|几何框架论文]]