Files
myWiki/concepts/uncancelled-interaction-effects.md

51 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "未抵消交互效应 (Uncancelled Interaction Effects)"
created: 2026-06-03
updated: 2026-06-03
type: concept
tags: [interactions, metrics, noise, LLM]
sources:
- "[[zhang-reconciling-sft-interaction-2026]]"
---
# 未抵消交互效应 (Uncancelled Interaction Effects)
## 定义
未抵消交互效应比例 $\rho$ 衡量一组交互中正效应和负效应**相互抵消后剩余的有效贡献**。当 $\rho$ 接近 0 时,意味着交互的正负效应几乎完全抵消,对目标 token 预测几乎没有净贡献——这是噪声模式的典型特征。
## 度量
$$\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\left|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}\right|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$$
分子取绝对值,分母为所有交互效应的绝对值之和。
## 解释
| $\rho$ 值 | 含义 |
|-----------|------|
| $\approx 0$ | 强正负抵消 → 噪声模式 |
| 较高 | 净效应显著 → 可靠信号 |
## 在 SFT 分析中的应用
在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 中,$\rho$ 是区分信号与噪声的核心指标:
- **Removed 交互**$\rho \approx 0$——被移除的交互正负效应几乎完全抵消,证实它们是噪声
- **Newly emerged 交互(后期)**$\rho \approx 0$——过拟合阶段涌现的交互同样是噪声
- **Preserved 交互**$\rho$ 最高——保留的交互净效应显著,是真正的推理信号
## 与泛化性的互补关系
$\rho$(未抵消效应比例)与 [[interaction-generalizability|γ(泛化性)]] 是两个互补的交互质量指标:
- $\rho$ 衡量**内部一致性**(效应是否互相抵消)
- $\gamma$ 衡量**外部一致性**(是否跨模型通用)
在 Zhang et al. 的实验中Removed 交互同时具有 $\gamma \approx 0$ 和 $\rho \approx 0$Preserved 交互在两个指标上都最高——两者高度一致。
## 相关概念
- [[interaction-generalizability|交互泛化性]]
- [[interaction-types-sft|SFT 中的三类交互]]
- [[interaction-order|交互阶数]]