20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/concept-learning.md
+++ b/concepts/concept-learning.md
@@ -0,0 +1,67 @@
+---
+title: "概念学习：几何视角 (Concept Learning: Geometric View)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [interpretability, geometry, theory, set-theory]
+sources: [raw/papers/zhang-geometric-sae-2026.md]
+confidence: high
+---
+
+# 概念学习：几何视角 (Concept Learning: Geometric View)
+
+[[geometric-sae-concepts|Zhang et al. (2026)]] 将概念学习形式化为**集合对齐问题**，并区分三个强度递增的学习层次。
+
+## 基本设定
+
+- 人类概念 `C ∈ C`：可测集合（数据点）
+- 模型概念 `θ_M`：神经元集合 M 的联合激活区域
+- 目标：使 θ 与 C 对齐
+
+## 三个层次
+
+### 1. 概念检测（Concept Detection）— 最弱
+
+```
+µ(C \ θ) = 0
+```
+
+θ 覆盖 C 即可。允许多对多映射，一个概念可被多个 θ 覆盖，一个 θ 可覆盖多个概念。
+
+### 2. 概念分离（Concept Separation）— 中等
+
+```
+x ∈ H_i^+ ∀ x ∈ C, i ∈ M
+x' ∈ H_j^- ∀ x' ∈ X\C, j ∈ [d]\M
+```
+
+θ 在**数据支持**上独占 C。关键定理：
+
+- **单神经元**：可行 ↔ `Conv(C) ∩ Conv(N) = ∅`
+- **多神经元单元**：可行 ↔ `Conv(C) ∩ N = ∅`
+- 最少需要 |C| 个神经元来分离所有概念
+
+### 3. 概念近似（Concept Approximation）— 最强
+
+概念分离的"环境空间版本"——θ 必须在全部 `R^d` 空间上紧致包围 C：
+
+- 可行 ↔ C 是凸集（up to ν-null set）
+- 非凸概念有不可约误差 `e_irr = ν(Conv(C)\C)`
+- 误差率：`e_app ≲ e_irr + A|M|^{-2/(r-1)}`
+- 支持**新概念发现**（可拒绝未知数据）
+
+## 核心洞察
+
+三个层次对应三种使用场景：
+
+| 层次 | 应用 | 关键需求 |
+|------|------|---------|
+| 检测 | 覆盖已知概念 | 最少神经元 |
+| 分离 | 分类/区分概念 | 数据支持上零假阳 |
+| 近似 | 新概念发现 | 环境空间上紧致包围 |
+
+## 参考
+
+- [[sparse-autoencoder|SAE]]
+- [[formal-concept-analysis|FCA]]
+- [[geometric-sae-concepts|几何框架论文]]