20260617:目前有914 页
This commit is contained in:
51
concepts/mechanistic-interpretability.md
Normal file
51
concepts/mechanistic-interpretability.md
Normal file
@@ -0,0 +1,51 @@
|
||||
---
|
||||
title: "机制可解释性 (Mechanistic Interpretability)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [interpretability, safety, alignment]
|
||||
sources: [raw/papers/zhang-geometric-sae-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 机制可解释性 (Mechanistic Interpretability)
|
||||
|
||||
机制可解释性(mech interp)研究神经网络的**内部计算机制**——不仅关注模型输出什么,更关注模型内部如何表示和处理信息。
|
||||
|
||||
## 核心理念
|
||||
|
||||
将神经网络视为可逆向工程的计算系统。目标是:
|
||||
|
||||
1. **分解**:将网络分解为可理解的组件
|
||||
2. **理解**:揭示每个组件执行的计算
|
||||
3. **验证**:通过干预实验确认因果关系
|
||||
|
||||
## 关键挑战
|
||||
|
||||
[[polysemanticity|多义性]] 是最大障碍——单个神经元同时编码多个概念;[[superposition|叠加]]是其根源。这使得直接的神经元分析不可靠。
|
||||
|
||||
## 主要工具
|
||||
|
||||
- **[[sparse-autoencoder|稀疏自编码器(SAE)]]**:通过过完备稀疏字典解耦叠加表征
|
||||
- **探针(probes)**:训练线性分类器检测隐藏状态中的概念
|
||||
- **激活修补(activation patching)**:干预特定激活观察因果效应
|
||||
- **[[formal-concept-analysis|形式概念分析]]**:系统化组织神经元-概念多对多关系
|
||||
|
||||
## 理论框架
|
||||
|
||||
[[geometric-sae-concepts|Zhang et al. (2026)]] 提出集合论几何框架:
|
||||
|
||||
- 概念 = 数据点集合(数据扎根视角,非柏拉图)
|
||||
- 概念学习 = 人类概念 C 与模型概念 θ 的集合对齐
|
||||
- 神经元解释 = 给定神经元集合 M,描述其表征的概念
|
||||
|
||||
## 与 [[linear-representation-hypothesis|线性表征假设]] 的关系
|
||||
|
||||
该假设声称概念对应于激活空间中的方向且可线性组合——这是 SAE 等技术的基础信念。几何框架将其推广到任意可测集合(不限于线性方向)。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[sparse-autoencoder|SAE]]
|
||||
- [[polysemanticity|多义性]]
|
||||
- [[superposition|叠加]]
|
||||
- [[geometric-sae-concepts|几何框架论文]]
|
||||
Reference in New Issue
Block a user