20260617:目前有914 页
This commit is contained in:
40
concepts/interaction-based-explanation.md
Normal file
40
concepts/interaction-based-explanation.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "交互基解释 (Interaction-Based Explanation)"
|
||||
created: 2026-06-03
|
||||
updated: 2026-06-03
|
||||
type: concept
|
||||
tags: [interpretability, interactions, LLM, DNN, xAI]
|
||||
sources:
|
||||
- "[[zhang-reconciling-sft-interaction-2026]]"
|
||||
---
|
||||
|
||||
# 交互基解释 (Interaction-Based Explanation)
|
||||
|
||||
## 定义
|
||||
|
||||
交互基解释是一种将深度神经网络(DNN)的复杂推理逻辑分解为一组**基本交互模式**(interaction primitives)的可解释性方法。在 LLM 的语境下,交互通常表示为输入 token/词之间的短语模式。
|
||||
|
||||
## 核心思想
|
||||
|
||||
DNN 的输出可以被忠实地近似为一组 [[and-or-interactions|AND-OR 交互]] 的加权和。每个交互表示输入变量之间的某种组合关系:
|
||||
|
||||
- **AND 交互**:当所有参与变量同时存在时激活,贡献效应 $I_T^{\text{and}}$
|
||||
- **OR 交互**:当任一参与变量存在时激活,贡献效应 $I_T^{\text{or}}$
|
||||
|
||||
## 关键性质
|
||||
|
||||
1. **通用匹配性 (Universal Matching)**:由提取的交互构建的 [[logical-model-interaction|逻辑模型]] 可以在所有 $2^n$ 个掩码状态下以 $\epsilon$ 精度逼近原 DNN 输出
|
||||
2. **稀疏性 (Sparsity)**:实际中 DNN 从单个输入样本提取的交互数量很小(通常 50-150 个),理论上也有界
|
||||
3. **忠实性 (Faithfulness)**:大量实证和理论工作验证了交互解释的忠实性
|
||||
|
||||
## 应用于 SFT 分析
|
||||
|
||||
在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 的工作中,交互被用作追踪 SFT 过程中 LLM 推理模式演变的量化指标。通过持续追踪交互的涌现和消亡,可以揭示 SFT 两阶段动力学的内在机制。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[and-or-interactions|AND-OR 交互]]
|
||||
- [[logical-model-interaction|交互逻辑模型]]
|
||||
- [[interaction-order|交互阶数]]
|
||||
- [[interaction-generalizability|交互泛化性]]
|
||||
- [[shapley-values]] (计算上相关)
|
||||
Reference in New Issue
Block a user