20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/mechanistic-interpretability.md
+++ b/concepts/mechanistic-interpretability.md
@@ -0,0 +1,51 @@
+---
+title: "机制可解释性 (Mechanistic Interpretability)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [interpretability, safety, alignment]
+sources: [raw/papers/zhang-geometric-sae-2026.md]
+confidence: high
+---
+
+# 机制可解释性 (Mechanistic Interpretability)
+
+机制可解释性（mech interp）研究神经网络的**内部计算机制**——不仅关注模型输出什么，更关注模型内部如何表示和处理信息。
+
+## 核心理念
+
+将神经网络视为可逆向工程的计算系统。目标是：
+
+1. **分解**：将网络分解为可理解的组件
+2. **理解**：揭示每个组件执行的计算
+3. **验证**：通过干预实验确认因果关系
+
+## 关键挑战
+
+[[polysemanticity|多义性]] 是最大障碍——单个神经元同时编码多个概念；[[superposition|叠加]]是其根源。这使得直接的神经元分析不可靠。
+
+## 主要工具
+
+- **[[sparse-autoencoder|稀疏自编码器（SAE）]]**：通过过完备稀疏字典解耦叠加表征
+- **探针（probes）**：训练线性分类器检测隐藏状态中的概念
+- **激活修补（activation patching）**：干预特定激活观察因果效应
+- **[[formal-concept-analysis|形式概念分析]]**：系统化组织神经元-概念多对多关系
+
+## 理论框架
+
+[[geometric-sae-concepts|Zhang et al. (2026)]] 提出集合论几何框架：
+
+- 概念 = 数据点集合（数据扎根视角，非柏拉图）
+- 概念学习 = 人类概念 C 与模型概念 θ 的集合对齐
+- 神经元解释 = 给定神经元集合 M，描述其表征的概念
+
+## 与 [[linear-representation-hypothesis|线性表征假设]] 的关系
+
+该假设声称概念对应于激活空间中的方向且可线性组合——这是 SAE 等技术的基础信念。几何框架将其推广到任意可测集合（不限于线性方向）。
+
+## 参考
+
+- [[sparse-autoencoder|SAE]]
+- [[polysemanticity|多义性]]
+- [[superposition|叠加]]
+- [[geometric-sae-concepts|几何框架论文]]