SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

交互基解释 (Interaction-Based Explanation)

2026-06-03

2026-06-03

concept

interpretability

interactions

LLM

DNN

xAI

zhang-reconciling-sft-interaction-2026

交互基解释 (Interaction-Based Explanation)

定义

交互基解释是一种将深度神经网络（DNN）的复杂推理逻辑分解为一组基本交互模式（interaction primitives）的可解释性方法。在 LLM 的语境下，交互通常表示为输入 token/词之间的短语模式。

核心思想

DNN 的输出可以被忠实地近似为一组 and-or-interactions 的加权和。每个交互表示输入变量之间的某种组合关系：

AND 交互：当所有参与变量同时存在时激活，贡献效应 I_T^{\text{and}}
OR 交互：当任一参与变量存在时激活，贡献效应 I_T^{\text{or}}

关键性质

通用匹配性 (Universal Matching)：由提取的交互构建的 logical-model-interaction 可以在所有 2^n 个掩码状态下以 \epsilon 精度逼近原 DNN 输出
稀疏性 (Sparsity)：实际中 DNN 从单个输入样本提取的交互数量很小（通常 50-150 个），理论上也有界
忠实性 (Faithfulness)：大量实证和理论工作验证了交互解释的忠实性

应用于 SFT 分析

在 zhang-reconciling-sft-interaction-2026 的工作中，交互被用作追踪 SFT 过程中 LLM 推理模式演变的量化指标。通过持续追踪交互的涌现和消亡，可以揭示 SFT 两阶段动力学的内在机制。

相关概念