Files
myWiki/concepts/interaction-based-explanation.md

41 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "交互基解释 (Interaction-Based Explanation)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [interpretability, interactions, LLM, DNN, xAI]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# 交互基解释 (Interaction-Based Explanation)
## 定义
交互基解释是一种将深度神经网络DNN的复杂推理逻辑分解为一组**基本交互模式**interaction primitives的可解释性方法。在 LLM 的语境下,交互通常表示为输入 token/词之间的短语模式。
## 核心思想
DNN 的输出可以被忠实地近似为一组 [[and-or-interactions|AND-OR 交互]] 的加权和。每个交互表示输入变量之间的某种组合关系:
- **AND 交互**:当所有参与变量同时存在时激活,贡献效应 $I_T^{\text{and}}$
- **OR 交互**:当任一参与变量存在时激活,贡献效应 $I_T^{\text{or}}$
## 关键性质
1. **通用匹配性 (Universal Matching)**:由提取的交互构建的 [[logical-model-interaction|逻辑模型]] 可以在所有 $2^n$ 个掩码状态下以 $\epsilon$ 精度逼近原 DNN 输出
2. **稀疏性 (Sparsity)**:实际中 DNN 从单个输入样本提取的交互数量很小(通常 50-150 个),理论上也有界
3. **忠实性 (Faithfulness)**:大量实证和理论工作验证了交互解释的忠实性
## 应用于 SFT 分析
在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 的工作中,交互被用作追踪 SFT 过程中 LLM 推理模式演变的量化指标。通过持续追踪交互的涌现和消亡,可以揭示 SFT 两阶段动力学的内在机制。
## 相关概念
- [[and-or-interactions|AND-OR 交互]]
- [[logical-model-interaction|交互逻辑模型]]
- [[interaction-order|交互阶数]]
- [[interaction-generalizability|交互泛化性]]
- [[shapley-values]] (计算上相关)