Files
myWiki/concepts/feature-family.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
特征家族 (Feature Family) 2026-06-17 2026-06-17 concept
interpretability
sparse-autoencoder
phenomena
raw/papers/zhang-geometric-sae-2026.md
high

特征家族 (Feature Family)

特征家族是 sparse-autoencoder一组倾向于协同激活的神经元——可能代表同一概念的不同方面或语义家族中的邻近概念。

形式化

一组特征 θ₁, ..., θᵣ 构成家族,若:

∩_{l=1}^{r} θ_l ≠ ∅

即所有家族成员存在非平凡的共同激活区域。

为什么形成

geometric-sae-concepts 的几何视角:

  1. feature-splitting的中间态:尚未完全分裂的粗粒度概念
  2. 概念的多面性:同一语义对象有多个可分离的方面
  3. 稀疏性下的协同编码:多个稀疏特征组合表达一个不能由单个特征覆盖的概念

与层级概念的关系

特征家族与层级概念hierarchical concepts不同

  • 层级概念C_child ⊂ C_parent(子集关系)
  • 特征家族:多个特征描述同一概念的不同维度(非包含关系)

意义

特征家族揭示了 SAE 学习表征的模块性modularity——模型倾向于用多个独立但协同的特征来表示复杂概念,而非一个全能的"祖母细胞"。

参考