20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,67 @@
---
title: "概念学习:几何视角 (Concept Learning: Geometric View)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, geometry, theory, set-theory]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 概念学习:几何视角 (Concept Learning: Geometric View)
[[geometric-sae-concepts|Zhang et al. (2026)]] 将概念学习形式化为**集合对齐问题**,并区分三个强度递增的学习层次。
## 基本设定
- 人类概念 `C ∈ C`:可测集合(数据点)
- 模型概念 `θ_M`:神经元集合 M 的联合激活区域
- 目标:使 θ 与 C 对齐
## 三个层次
### 1. 概念检测Concept Detection— 最弱
```
µ(C \ θ) = 0
```
θ 覆盖 C 即可。允许多对多映射,一个概念可被多个 θ 覆盖,一个 θ 可覆盖多个概念。
### 2. 概念分离Concept Separation— 中等
```
x ∈ H_i^+ ∀ x ∈ C, i ∈ M
x' ∈ H_j^- ∀ x' ∈ X\C, j ∈ [d]\M
```
θ 在**数据支持**上独占 C。关键定理
- **单神经元**:可行 ↔ `Conv(C) ∩ Conv(N) = ∅`
- **多神经元单元**:可行 ↔ `Conv(C) ∩ N = ∅`
- 最少需要 |C| 个神经元来分离所有概念
### 3. 概念近似Concept Approximation— 最强
概念分离的"环境空间版本"——θ 必须在全部 `R^d` 空间上紧致包围 C
- 可行 ↔ C 是凸集up to ν-null set
- 非凸概念有不可约误差 `e_irr = ν(Conv(C)\C)`
- 误差率:`e_app ≲ e_irr + A|M|^{-2/(r-1)}`
- 支持**新概念发现**(可拒绝未知数据)
## 核心洞察
三个层次对应三种使用场景:
| 层次 | 应用 | 关键需求 |
|------|------|---------|
| 检测 | 覆盖已知概念 | 最少神经元 |
| 分离 | 分类/区分概念 | 数据支持上零假阳 |
| 近似 | 新概念发现 | 环境空间上紧致包围 |
## 参考
- [[sparse-autoencoder|SAE]]
- [[formal-concept-analysis|FCA]]
- [[geometric-sae-concepts|几何框架论文]]