Files
myWiki/concepts/feature-splitting.md

49 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "特征分裂 (Feature Splitting)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, sparse-autoencoder, phenomena]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 特征分裂 (Feature Splitting)
特征分裂是 [[sparse-autoencoder|SAE]] 中最常见的经验现象之一——较小的 SAE 中的粗粒度神经元在较大的 SAE 中**分裂为多个更精细的语义子成分**。
## 形式化
若 θ 是粗神经元,θ₁,...,θᵣ 是分裂后的细粒度神经元:
```
θ ≈ _{j=1}^{r} θ_j, 且 θ_j ∩ θ_l ≈ ∅ (j ≠ l)
```
近似不交性由稀疏约束保证:若分裂神经元大量重叠,数据会同时激活多个神经元,违反稀疏性。
## 必要条件
从 [[geometric-sae-concepts|Zhang et al. (2026)]] 的几何框架:
- 概念必须**非凸到某个正程度**才能分裂(凸概念不可进一步分解)
- 需满足概念分离的几何条件:`Conv(C_j) ∩ Conv(N_j) = ∅`
- 更大的 SAE = 更多的超平面 = 更精细的区域划分能力
## 为什么重要
- **层级概念的自然涌现**"动物" → "哺乳动物" / "爬行动物" → ...
- **解释粒度可调**SAE 大小控制特征粒度
- **证明 SAE 学到的是"真实"结构**而非人工注入
## 注意
[[geometric-sae-concepts|Zhang et al. (2026)]] 证明特征分裂**不具有普遍性**:并非所有概念都能分裂为更细粒度。层级概念(如父子关系)在不改变 SAE 架构的情况下可能难以学习。
## 参考
- [[feature-absorption|特征吸收]]
- [[feature-family|特征家族]]
- [[sparse-autoencoder|SAE]]
- [[geometric-sae-concepts|几何框架论文]]