Files
myWiki/concepts/logical-model-interaction.md

53 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "交互逻辑模型 (Logical Model of Interactions)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [interactions, logical-model, DNN, LLM, interpretability]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# 交互逻辑模型 (Logical Model of Interactions)
## 定义
交互逻辑模型 $\phi(\cdot)$ 是由 [[and-or-interactions|AND-OR 交互]] 构建的、用于逼近 DNN 输出分数的可解释模型。给定输入 $x'$
$$\phi(x') = \sum_{T \in \Omega^{\text{and}}} I_T^{\text{and}} \cdot \mathbb{1}(\text{AND}_T) + \sum_{T \in \Omega^{\text{or}}} I_T^{\text{or}} \cdot \mathbb{1}(\text{OR}_T) + b$$
## 关键性质
### 通用匹配性 (Universal Matching Property)
逻辑模型可以在**所有 $2^n$ 个掩码状态**上以 $\epsilon$ 精度逼近原 LLM 输出:
$$\forall x' \in \Psi, \quad |\phi(x') - v(x')| < \epsilon$$
其中 $\Psi = \{x_S \mid S \subseteq N\}$ $2^n$ 个掩码状态的空间
### LLM 输出分数的定义
LLM 语境下输出分数 $v(x)$ 定义为生成目标 token 序列的置信度
$$v(x) = \sum_{i=1}^{m} \log \frac{p(y = y_i \mid x, y_i^{\text{preceding}})}{1 - p(y = y_i \mid x, y_i^{\text{preceding}})}$$
## 在 SFT 分析中的角色
[[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 逻辑模型是追踪 SFT 过程中交互演变的基础工具
1. 在每个 SFT 时间点 $t$ LLM 中提取 AND-OR 交互构建 $\phi_t$
2. 比较 $\phi_t$ $\phi_{t-1}$识别 [[interaction-types-sft|三类交互]] 的变化
3. 计算 [[interaction-generalizability|泛化性 γ]] [[uncancelled-interaction-effects|未抵消效应 ρ]] 评估交互质量
## 计算考量
交互提取的计算复杂性与 Shapley 值类似指数级但已有多种近似算法和工程优化使其在实际中可用LLM 通常仅关注少量显著文本段进一步降低了计算成本
## 相关概念
- [[and-or-interactions|AND-OR 交互]]
- [[interaction-based-explanation|交互基解释]]
- [[interaction-types-sft|SFT 中的三类交互]]
- [[shapley-values]]