Files
myWiki/concepts/mechanistic-interpretability.md

52 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "机制可解释性 (Mechanistic Interpretability)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [interpretability, safety, alignment]
sources: [raw/papers/zhang-geometric-sae-2026.md]
confidence: high
---
# 机制可解释性 (Mechanistic Interpretability)
机制可解释性mech interp研究神经网络的**内部计算机制**——不仅关注模型输出什么,更关注模型内部如何表示和处理信息。
## 核心理念
将神经网络视为可逆向工程的计算系统。目标是:
1. **分解**:将网络分解为可理解的组件
2. **理解**:揭示每个组件执行的计算
3. **验证**:通过干预实验确认因果关系
## 关键挑战
[[polysemanticity|多义性]] 是最大障碍——单个神经元同时编码多个概念;[[superposition|叠加]]是其根源。这使得直接的神经元分析不可靠。
## 主要工具
- **[[sparse-autoencoder|稀疏自编码器SAE]]**:通过过完备稀疏字典解耦叠加表征
- **探针probes**:训练线性分类器检测隐藏状态中的概念
- **激活修补activation patching**:干预特定激活观察因果效应
- **[[formal-concept-analysis|形式概念分析]]**:系统化组织神经元-概念多对多关系
## 理论框架
[[geometric-sae-concepts|Zhang et al. (2026)]] 提出集合论几何框架:
- 概念 = 数据点集合(数据扎根视角,非柏拉图)
- 概念学习 = 人类概念 C 与模型概念 θ 的集合对齐
- 神经元解释 = 给定神经元集合 M描述其表征的概念
## 与 [[linear-representation-hypothesis|线性表征假设]] 的关系
该假设声称概念对应于激活空间中的方向且可线性组合——这是 SAE 等技术的基础信念。几何框架将其推广到任意可测集合(不限于线性方向)。
## 参考
- [[sparse-autoencoder|SAE]]
- [[polysemanticity|多义性]]
- [[superposition|叠加]]
- [[geometric-sae-concepts|几何框架论文]]