Files
myWiki/concepts/and-or-interactions.md

44 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "AND-OR 交互 (AND-OR Interactions)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [interactions, interpretability, DNN, LLM]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# AND-OR 交互 (AND-OR Interactions)
## 定义
AND-OR 交互是 [[interaction-based-explanation|交互基解释]] 框架中用于分解 DNN 推理模式的两种基本交互类型。给定输入变量集合 $N = \{1, 2, ..., n\}$
- **AND 交互** $I_T^{\text{and}}$:当且仅当 $T \subseteq N$ 中**所有**变量同时存在于输入中时激活
- **OR 交互** $I_T^{\text{or}}$:当 $T \subseteq N$ 中**任一**变量存在于输入中时激活
## 在 LLM 中的语义
在 LLM 语境下,每个交互对应一个**短语模式**phrase pattern。例如
- 三个词 "laws"、"of"、"motion" 组成的 AND 交互:仅当三个词同时出现时,为预测 "acceleration" 贡献 +0.41
- 两个词 "force"、"mass" 组成的 OR 交互:任一词出现时即激活
## 数学形式
由 AND-OR 交互构建的 [[logical-model-interaction|逻辑模型]] $\phi(x')$ 为:
$$\phi(x') = \sum_{T \in \Omega^{\text{and}}} I_T^{\text{and}} \cdot \mathbb{1}(\text{AND}_T) + \sum_{T \in \Omega^{\text{or}}} I_T^{\text{or}} \cdot \mathbb{1}(\text{OR}_T) + b$$
其中 $b$ 为偏置标量,$\Omega^{\text{and}}$ 和 $\Omega^{\text{or}}$ 分别为 AND 和 OR 交互的集合。
## 提取方法
通过最小化 LASSO 类损失函数,将网络输出分解为 AND 和 OR 两个分量,分别提取对应的交互效应。详见 Chen et al. (2024) 和 Li & Zhang (2024)。
## 相关概念
- [[interaction-based-explanation|交互基解释]]
- [[logical-model-interaction|交互逻辑模型]]
- [[interaction-order|交互阶数]]
- [[interaction-types-sft|SFT 中的三类交互]]