1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 特征分裂 (Feature Splitting) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
特征分裂 (Feature Splitting)
特征分裂是 sparse-autoencoder 中最常见的经验现象之一——较小的 SAE 中的粗粒度神经元在较大的 SAE 中分裂为多个更精细的语义子成分。
形式化
若 θ 是粗神经元,θ₁,...,θᵣ 是分裂后的细粒度神经元:
θ ≈ ∪_{j=1}^{r} θ_j, 且 θ_j ∩ θ_l ≈ ∅ (j ≠ l)
近似不交性由稀疏约束保证:若分裂神经元大量重叠,数据会同时激活多个神经元,违反稀疏性。
必要条件
从 geometric-sae-concepts 的几何框架:
- 概念必须非凸到某个正程度才能分裂(凸概念不可进一步分解)
- 需满足概念分离的几何条件:
Conv(C_j) ∩ Conv(N_j) = ∅ - 更大的 SAE = 更多的超平面 = 更精细的区域划分能力
为什么重要
- 层级概念的自然涌现:"动物" → "哺乳动物" / "爬行动物" → ...
- 解释粒度可调:SAE 大小控制特征粒度
- 证明 SAE 学到的是"真实"结构而非人工注入
注意
geometric-sae-concepts 证明特征分裂不具有普遍性:并非所有概念都能分裂为更细粒度。层级概念(如父子关系)在不改变 SAE 架构的情况下可能难以学习。