1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 特征吸收 (Feature Absorption) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
特征吸收 (Feature Absorption)
特征吸收是 sparse-autoencoder 中层级概念学习的失败模式——父概念神经元未能对一个子概念的数据点激活,尽管该子概念在语义上属于父概念。
形式化
设 C_i ⊂ C_j(子概念 ⊆ 父概念)。理想情况下期望 θ_{C_i} ⊂ θ_{C_j}。
吸收的数学定义:
µ(C_i ∩ θ_{C_j}^c) > 0
即父概念神经元 θ_{C_j} 在子概念 C_i 的正测度子集上未能激活。
根本原因
concept-learning或近似的稀疏惩罚导致:
- 激活子概念神经元 θ_{C_i} 已消耗稀疏预算
- 同时激活父概念神经元 θ_{C_j} 增加稀疏成本
- SAE 优化选择只激活子概念、跳过父概念
几何解释
从 geometric-sae-concepts 的框架:
- 绝对门控下,父神经元
H_j^+是半空间,本应覆盖子概念 - 但相对门控(Top-K)下,子概念的数据点可能未被选入 Top-K
- 层级概念的维护会系统性地增加稀疏成本
意义
特征吸收暴露了稀疏性假设与层级语义之间的结构性张力——SAE 的稀疏约束天然不利于层级概念的学习。这暗示需要架构创新(如层级 SAE)来支持父子概念的共存。