Files
myWiki/concepts/feature-absorption.md

53 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "特征吸收 (Feature Absorption)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, sparse-autoencoder, failure-mode, phenomena]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 特征吸收 (Feature Absorption)
特征吸收是 [[sparse-autoencoder|SAE]] 中层级概念学习的**失败模式**——父概念神经元未能对一个子概念的数据点激活,尽管该子概念在语义上属于父概念。
## 形式化
`C_i ⊂ C_j`(子概念 ⊆ 父概念)。理想情况下期望 `θ_{C_i} ⊂ θ_{C_j}`
吸收的数学定义:
```
µ(C_i ∩ θ_{C_j}^c) > 0
```
即父概念神经元 θ_{C_j} 在子概念 C_i 的正测度子集上未能激活。
## 根本原因
[[concept-learning|概念分离]]或近似的稀疏惩罚导致:
- 激活子概念神经元 θ_{C_i} 已消耗稀疏预算
- 同时激活父概念神经元 θ_{C_j} 增加稀疏成本
- SAE 优化选择只激活子概念、跳过父概念
## 几何解释
从 [[geometric-sae-concepts|Zhang et al. (2026)]] 的框架:
- 绝对门控下,父神经元 `H_j^+` 是半空间,本应覆盖子概念
- 但相对门控Top-K子概念的数据点可能未被选入 Top-K
- 层级概念的维护会系统性地增加稀疏成本
## 意义
特征吸收暴露了**稀疏性假设与层级语义之间的结构性张力**——SAE 的稀疏约束天然不利于层级概念的学习。这暗示需要架构创新(如层级 SAE来支持父子概念的共存。
## 参考
- [[feature-splitting|特征分裂]]
- [[feature-family|特征家族]]
- [[sparse-autoencoder|SAE]]
- [[geometric-sae-concepts|几何框架论文]]