SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

特征吸收 (Feature Absorption)

2026-06-17

2026-06-17

concept

interpretability

sparse-autoencoder

failure-mode

phenomena

raw/papers/zhang-geometric-sae-2026.md

high

特征吸收 (Feature Absorption)

特征吸收是 sparse-autoencoder 中层级概念学习的失败模式——父概念神经元未能对一个子概念的数据点激活，尽管该子概念在语义上属于父概念。

形式化

设 C_i ⊂ C_j（子概念 ⊆ 父概念）。理想情况下期望 θ_{C_i} ⊂ θ_{C_j}。

吸收的数学定义：

µ(C_i ∩ θ_{C_j}^c) > 0

即父概念神经元 θ_{C_j} 在子概念 C_i 的正测度子集上未能激活。

根本原因

concept-learning或近似的稀疏惩罚导致：

激活子概念神经元 θ_{C_i} 已消耗稀疏预算
同时激活父概念神经元 θ_{C_j} 增加稀疏成本
SAE 优化选择只激活子概念、跳过父概念

几何解释

从 geometric-sae-concepts 的框架：

绝对门控下，父神经元 H_j^+ 是半空间，本应覆盖子概念
但相对门控（Top-K）下，子概念的数据点可能未被选入 Top-K
层级概念的维护会系统性地增加稀疏成本

意义

特征吸收暴露了稀疏性假设与层级语义之间的结构性张力——SAE 的稀疏约束天然不利于层级概念的学习。这暗示需要架构创新（如层级 SAE）来支持父子概念的共存。

参考