51 lines
2.1 KiB
Markdown
51 lines
2.1 KiB
Markdown
---
|
||
title: "未抵消交互效应 (Uncancelled Interaction Effects)"
|
||
created: 2026-06-03
|
||
updated: 2026-06-03
|
||
type: concept
|
||
tags: [interactions, metrics, noise, LLM]
|
||
sources:
|
||
- "[[zhang-reconciling-sft-interaction-2026]]"
|
||
---
|
||
|
||
# 未抵消交互效应 (Uncancelled Interaction Effects)
|
||
|
||
## 定义
|
||
|
||
未抵消交互效应比例 $\rho$ 衡量一组交互中正效应和负效应**相互抵消后剩余的有效贡献**。当 $\rho$ 接近 0 时,意味着交互的正负效应几乎完全抵消,对目标 token 预测几乎没有净贡献——这是噪声模式的典型特征。
|
||
|
||
## 度量
|
||
|
||
$$\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\left|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}\right|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$$
|
||
|
||
分子取绝对值,分母为所有交互效应的绝对值之和。
|
||
|
||
## 解释
|
||
|
||
| $\rho$ 值 | 含义 |
|
||
|-----------|------|
|
||
| $\approx 0$ | 强正负抵消 → 噪声模式 |
|
||
| 较高 | 净效应显著 → 可靠信号 |
|
||
|
||
## 在 SFT 分析中的应用
|
||
|
||
在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 中,$\rho$ 是区分信号与噪声的核心指标:
|
||
|
||
- **Removed 交互**:$\rho \approx 0$——被移除的交互正负效应几乎完全抵消,证实它们是噪声
|
||
- **Newly emerged 交互(后期)**:$\rho \approx 0$——过拟合阶段涌现的交互同样是噪声
|
||
- **Preserved 交互**:$\rho$ 最高——保留的交互净效应显著,是真正的推理信号
|
||
|
||
## 与泛化性的互补关系
|
||
|
||
$\rho$(未抵消效应比例)与 [[interaction-generalizability|γ(泛化性)]] 是两个互补的交互质量指标:
|
||
- $\rho$ 衡量**内部一致性**(效应是否互相抵消)
|
||
- $\gamma$ 衡量**外部一致性**(是否跨模型通用)
|
||
|
||
在 Zhang et al. 的实验中,Removed 交互同时具有 $\gamma \approx 0$ 和 $\rho \approx 0$,Preserved 交互在两个指标上都最高——两者高度一致。
|
||
|
||
## 相关概念
|
||
|
||
- [[interaction-generalizability|交互泛化性]]
|
||
- [[interaction-types-sft|SFT 中的三类交互]]
|
||
- [[interaction-order|交互阶数]]
|