SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

机制可解释性 (Mechanistic Interpretability)

2026-06-17

2026-06-17

concept

interpretability

safety

alignment

raw/papers/zhang-geometric-sae-2026.md

high

机制可解释性 (Mechanistic Interpretability)

机制可解释性（mech interp）研究神经网络的内部计算机制——不仅关注模型输出什么，更关注模型内部如何表示和处理信息。

核心理念

将神经网络视为可逆向工程的计算系统。目标是：

分解：将网络分解为可理解的组件
理解：揭示每个组件执行的计算
验证：通过干预实验确认因果关系

关键挑战

polysemanticity 是最大障碍——单个神经元同时编码多个概念；superposition是其根源。这使得直接的神经元分析不可靠。

主要工具

sparse-autoencoder：通过过完备稀疏字典解耦叠加表征
探针（probes）：训练线性分类器检测隐藏状态中的概念
激活修补（activation patching）：干预特定激活观察因果效应
formal-concept-analysis：系统化组织神经元-概念多对多关系

理论框架

geometric-sae-concepts 提出集合论几何框架：

概念 = 数据点集合（数据扎根视角，非柏拉图）
概念学习 = 人类概念 C 与模型概念 θ 的集合对齐
神经元解释 = 给定神经元集合 M，描述其表征的概念

与 linear-representation-hypothesis 的关系

该假设声称概念对应于激活空间中的方向且可线性组合——这是 SAE 等技术的基础信念。几何框架将其推广到任意可测集合（不限于线性方向）。

参考