2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 未抵消交互效应 (Uncancelled Interaction Effects) | 2026-06-03 | 2026-06-03 | concept |
|
|
未抵消交互效应 (Uncancelled Interaction Effects)
定义
未抵消交互效应比例 \rho 衡量一组交互中正效应和负效应相互抵消后剩余的有效贡献。当 \rho 接近 0 时,意味着交互的正负效应几乎完全抵消,对目标 token 预测几乎没有净贡献——这是噪声模式的典型特征。
度量
\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\left|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}\right|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%
分子取绝对值,分母为所有交互效应的绝对值之和。
解释
\rho 值 |
含义 |
|---|---|
\approx 0 |
强正负抵消 → 噪声模式 |
| 较高 | 净效应显著 → 可靠信号 |
在 SFT 分析中的应用
在 zhang-reconciling-sft-interaction-2026 中,\rho 是区分信号与噪声的核心指标:
- Removed 交互:$\rho \approx 0$——被移除的交互正负效应几乎完全抵消,证实它们是噪声
- Newly emerged 交互(后期):$\rho \approx 0$——过拟合阶段涌现的交互同样是噪声
- Preserved 交互:
\rho最高——保留的交互净效应显著,是真正的推理信号
与泛化性的互补关系
$\rho$(未抵消效应比例)与 interaction-generalizability 是两个互补的交互质量指标:
\rho衡量内部一致性(效应是否互相抵消)\gamma衡量外部一致性(是否跨模型通用)
在 Zhang et al. 的实验中,Removed 交互同时具有 \gamma \approx 0 和 $\rho \approx 0$,Preserved 交互在两个指标上都最高——两者高度一致。