1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 交互基解释 (Interaction-Based Explanation) | 2026-06-03 | 2026-06-03 | concept |
|
|
交互基解释 (Interaction-Based Explanation)
定义
交互基解释是一种将深度神经网络(DNN)的复杂推理逻辑分解为一组基本交互模式(interaction primitives)的可解释性方法。在 LLM 的语境下,交互通常表示为输入 token/词之间的短语模式。
核心思想
DNN 的输出可以被忠实地近似为一组 and-or-interactions 的加权和。每个交互表示输入变量之间的某种组合关系:
- AND 交互:当所有参与变量同时存在时激活,贡献效应
I_T^{\text{and}} - OR 交互:当任一参与变量存在时激活,贡献效应
I_T^{\text{or}}
关键性质
- 通用匹配性 (Universal Matching):由提取的交互构建的 logical-model-interaction 可以在所有
2^n个掩码状态下以\epsilon精度逼近原 DNN 输出 - 稀疏性 (Sparsity):实际中 DNN 从单个输入样本提取的交互数量很小(通常 50-150 个),理论上也有界
- 忠实性 (Faithfulness):大量实证和理论工作验证了交互解释的忠实性
应用于 SFT 分析
在 zhang-reconciling-sft-interaction-2026 的工作中,交互被用作追踪 SFT 过程中 LLM 推理模式演变的量化指标。通过持续追踪交互的涌现和消亡,可以揭示 SFT 两阶段动力学的内在机制。