53 lines
1.7 KiB
Markdown
53 lines
1.7 KiB
Markdown
---
|
||
title: "特征吸收 (Feature Absorption)"
|
||
created: 2026-06-17
|
||
updated: 2026-06-17
|
||
type: concept
|
||
tags: [interpretability, sparse-autoencoder, failure-mode, phenomena]
|
||
sources: [raw/papers/zhang-geometric-sae-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# 特征吸收 (Feature Absorption)
|
||
|
||
特征吸收是 [[sparse-autoencoder|SAE]] 中层级概念学习的**失败模式**——父概念神经元未能对一个子概念的数据点激活,尽管该子概念在语义上属于父概念。
|
||
|
||
## 形式化
|
||
|
||
设 `C_i ⊂ C_j`(子概念 ⊆ 父概念)。理想情况下期望 `θ_{C_i} ⊂ θ_{C_j}`。
|
||
|
||
吸收的数学定义:
|
||
|
||
```
|
||
µ(C_i ∩ θ_{C_j}^c) > 0
|
||
```
|
||
|
||
即父概念神经元 θ_{C_j} 在子概念 C_i 的正测度子集上未能激活。
|
||
|
||
## 根本原因
|
||
|
||
[[concept-learning|概念分离]]或近似的稀疏惩罚导致:
|
||
|
||
- 激活子概念神经元 θ_{C_i} 已消耗稀疏预算
|
||
- 同时激活父概念神经元 θ_{C_j} 增加稀疏成本
|
||
- SAE 优化选择只激活子概念、跳过父概念
|
||
|
||
## 几何解释
|
||
|
||
从 [[geometric-sae-concepts|Zhang et al. (2026)]] 的框架:
|
||
|
||
- 绝对门控下,父神经元 `H_j^+` 是半空间,本应覆盖子概念
|
||
- 但相对门控(Top-K)下,子概念的数据点可能未被选入 Top-K
|
||
- 层级概念的维护会系统性地增加稀疏成本
|
||
|
||
## 意义
|
||
|
||
特征吸收暴露了**稀疏性假设与层级语义之间的结构性张力**——SAE 的稀疏约束天然不利于层级概念的学习。这暗示需要架构创新(如层级 SAE)来支持父子概念的共存。
|
||
|
||
## 参考
|
||
|
||
- [[feature-splitting|特征分裂]]
|
||
- [[feature-family|特征家族]]
|
||
- [[sparse-autoencoder|SAE]]
|
||
- [[geometric-sae-concepts|几何框架论文]]
|