Files
myWiki/concepts/interaction-generalizability.md

45 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "交互泛化性 (Interaction Generalizability)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [interactions, generalizability, LLM, metrics]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# 交互泛化性 (Interaction Generalizability)
## 定义
交互泛化性衡量一个交互是否在不同 DNN 之间**一致存在**。如果交互 $S$ 同时被目标 LLM $v$ 和基线 LLM $v'$(架构不同)编码,且效应方向一致,则该交互被认为是泛化的。
## 度量
$$G_S^{\text{type}} = \mathbb{1}(S \in \Omega_{v'}^{\text{type}}) \cdot \mathbb{1}(\text{sign}(I_S^{\text{type}}) = \text{sign}(I_{S,v'}^{\text{type}}))$$
其中 $v'$ 为架构不同的基线 LLM。
整体泛化比例 $\gamma$ 定义为:
$$\gamma(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}} \cdot G_S^{\text{type}}|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$$
## 在 SFT 分析中的应用
在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 中,泛化性是区分可靠交互与噪声交互的关键指标:
- **Preserved 交互**γ > 50%,说明它们捕捉了跨模型的共享表征
- **Removed 交互**γ ≈ 0说明它们几乎完全是模型特定的噪声
- **Newly emerged 交互**:早期涌现的 γ 较高;后期涌现的 γ 急剧下降
## 与交互阶数的关系
低阶交互的泛化性通常显著强于高阶交互——这与 [[interaction-order|交互阶数]] 理论一致:简单模式更可能在不同模型中通用。
## 相关概念
- [[uncancelled-interaction-effects|未抵消交互效应]]
- [[interaction-order|交互阶数]]
- [[interaction-types-sft|SFT 中的三类交互]]
- [[interaction-based-explanation|交互基解释]]