Files
myWiki/concepts/concept-learning.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
概念学习:几何视角 (Concept Learning: Geometric View) 2026-06-17 2026-06-17 concept
interpretability
geometry
theory
set-theory
raw/papers/zhang-geometric-sae-2026.md
high

概念学习:几何视角 (Concept Learning: Geometric View)

geometric-sae-concepts 将概念学习形式化为集合对齐问题,并区分三个强度递增的学习层次。

基本设定

  • 人类概念 C ∈ C:可测集合(数据点)
  • 模型概念 θ_M:神经元集合 M 的联合激活区域
  • 目标:使 θ 与 C 对齐

三个层次

1. 概念检测Concept Detection— 最弱

µ(C \ θ) = 0

θ 覆盖 C 即可。允许多对多映射,一个概念可被多个 θ 覆盖,一个 θ 可覆盖多个概念。

2. 概念分离Concept Separation— 中等

x ∈ H_i^+ ∀ x ∈ C, i ∈ M
x' ∈ H_j^- ∀ x' ∈ X\C, j ∈ [d]\M

θ 在数据支持上独占 C。关键定理

  • 单神经元:可行 ↔ Conv(C) ∩ Conv(N) = ∅
  • 多神经元单元:可行 ↔ Conv(C) ∩ N = ∅
  • 最少需要 |C| 个神经元来分离所有概念

3. 概念近似Concept Approximation— 最强

概念分离的"环境空间版本"——θ 必须在全部 R^d 空间上紧致包围 C

  • 可行 ↔ C 是凸集up to ν-null set
  • 非凸概念有不可约误差 e_irr = ν(Conv(C)\C)
  • 误差率:e_app ≲ e_irr + A|M|^{-2/(r-1)}
  • 支持新概念发现(可拒绝未知数据)

核心洞察

三个层次对应三种使用场景:

层次 应用 关键需求
检测 覆盖已知概念 最少神经元
分离 分类/区分概念 数据支持上零假阳
近似 新概念发现 环境空间上紧致包围

参考