1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 机制可解释性 (Mechanistic Interpretability) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
机制可解释性 (Mechanistic Interpretability)
机制可解释性(mech interp)研究神经网络的内部计算机制——不仅关注模型输出什么,更关注模型内部如何表示和处理信息。
核心理念
将神经网络视为可逆向工程的计算系统。目标是:
- 分解:将网络分解为可理解的组件
- 理解:揭示每个组件执行的计算
- 验证:通过干预实验确认因果关系
关键挑战
polysemanticity 是最大障碍——单个神经元同时编码多个概念;superposition是其根源。这使得直接的神经元分析不可靠。
主要工具
- sparse-autoencoder:通过过完备稀疏字典解耦叠加表征
- 探针(probes):训练线性分类器检测隐藏状态中的概念
- 激活修补(activation patching):干预特定激活观察因果效应
- formal-concept-analysis:系统化组织神经元-概念多对多关系
理论框架
geometric-sae-concepts 提出集合论几何框架:
- 概念 = 数据点集合(数据扎根视角,非柏拉图)
- 概念学习 = 人类概念 C 与模型概念 θ 的集合对齐
- 神经元解释 = 给定神经元集合 M,描述其表征的概念
与 linear-representation-hypothesis 的关系
该假设声称概念对应于激活空间中的方向且可线性组合——这是 SAE 等技术的基础信念。几何框架将其推广到任意可测集合(不限于线性方向)。