Files
myWiki/concepts/uncancelled-interaction-effects.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
未抵消交互效应 (Uncancelled Interaction Effects) 2026-06-03 2026-06-03 concept
interactions
metrics
noise
LLM
zhang-reconciling-sft-interaction-2026

未抵消交互效应 (Uncancelled Interaction Effects)

定义

未抵消交互效应比例 \rho 衡量一组交互中正效应和负效应相互抵消后剩余的有效贡献。当 \rho 接近 0 时,意味着交互的正负效应几乎完全抵消,对目标 token 预测几乎没有净贡献——这是噪声模式的典型特征。

度量

\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\left|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}\right|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%

分子取绝对值,分母为所有交互效应的绝对值之和。

解释

\rho 含义
\approx 0 强正负抵消 → 噪声模式
较高 净效应显著 → 可靠信号

在 SFT 分析中的应用

zhang-reconciling-sft-interaction-2026 中,\rho 是区分信号与噪声的核心指标:

  • Removed 交互$\rho \approx 0$——被移除的交互正负效应几乎完全抵消,证实它们是噪声
  • Newly emerged 交互(后期)$\rho \approx 0$——过拟合阶段涌现的交互同样是噪声
  • Preserved 交互\rho 最高——保留的交互净效应显著,是真正的推理信号

与泛化性的互补关系

$\rho$(未抵消效应比例)与 interaction-generalizability 是两个互补的交互质量指标:

  • \rho 衡量内部一致性(效应是否互相抵消)
  • \gamma 衡量外部一致性(是否跨模型通用)

在 Zhang et al. 的实验中Removed 交互同时具有 \gamma \approx 0 和 $\rho \approx 0$Preserved 交互在两个指标上都最高——两者高度一致。

相关概念