SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

概念学习：几何视角 (Concept Learning: Geometric View)

2026-06-17

2026-06-17

concept

interpretability

geometry

theory

set-theory

raw/papers/zhang-geometric-sae-2026.md

high

概念学习：几何视角 (Concept Learning: Geometric View)

geometric-sae-concepts 将概念学习形式化为集合对齐问题，并区分三个强度递增的学习层次。

基本设定

人类概念 C ∈ C：可测集合（数据点）
模型概念 θ_M：神经元集合 M 的联合激活区域
目标：使 θ 与 C 对齐

三个层次

1. 概念检测（Concept Detection）— 最弱

µ(C \ θ) = 0

θ 覆盖 C 即可。允许多对多映射，一个概念可被多个 θ 覆盖，一个 θ 可覆盖多个概念。

2. 概念分离（Concept Separation）— 中等

x ∈ H_i^+ ∀ x ∈ C, i ∈ M
x' ∈ H_j^- ∀ x' ∈ X\C, j ∈ [d]\M

θ 在数据支持上独占 C。关键定理：

单神经元：可行 ↔ Conv(C) ∩ Conv(N) = ∅
多神经元单元：可行 ↔ Conv(C) ∩ N = ∅
最少需要 |C| 个神经元来分离所有概念

3. 概念近似（Concept Approximation）— 最强

概念分离的"环境空间版本"——θ 必须在全部 R^d 空间上紧致包围 C：

可行 ↔ C 是凸集（up to ν-null set）
非凸概念有不可约误差 e_irr = ν(Conv(C)\C)
误差率：e_app ≲ e_irr + A|M|^{-2/(r-1)}
支持新概念发现（可拒绝未知数据）

核心洞察

三个层次对应三种使用场景：

层次	应用	关键需求
检测	覆盖已知概念	最少神经元
分离	分类/区分概念	数据支持上零假阳
近似	新概念发现	环境空间上紧致包围

参考