--- title: "未抵消交互效应 (Uncancelled Interaction Effects)" created: 2026-06-03 updated: 2026-06-03 type: concept tags: [interactions, metrics, noise, LLM] sources: - "[[zhang-reconciling-sft-interaction-2026]]" --- # 未抵消交互效应 (Uncancelled Interaction Effects) ## 定义 未抵消交互效应比例 $\rho$ 衡量一组交互中正效应和负效应**相互抵消后剩余的有效贡献**。当 $\rho$ 接近 0 时,意味着交互的正负效应几乎完全抵消,对目标 token 预测几乎没有净贡献——这是噪声模式的典型特征。 ## 度量 $$\rho(\Omega^{\text{and}}, \Omega^{\text{or}}) = \frac{\left|\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} I_S^{\text{type}}\right|}{\sum_{\text{type}} \sum_{S \in \Omega^{\text{type}}} |I_S^{\text{type}}|} \times 100\%$$ 分子取绝对值,分母为所有交互效应的绝对值之和。 ## 解释 | $\rho$ 值 | 含义 | |-----------|------| | $\approx 0$ | 强正负抵消 → 噪声模式 | | 较高 | 净效应显著 → 可靠信号 | ## 在 SFT 分析中的应用 在 [[zhang-reconciling-sft-interaction-2026|Zhang et al. (2026)]] 中,$\rho$ 是区分信号与噪声的核心指标: - **Removed 交互**:$\rho \approx 0$——被移除的交互正负效应几乎完全抵消,证实它们是噪声 - **Newly emerged 交互(后期)**:$\rho \approx 0$——过拟合阶段涌现的交互同样是噪声 - **Preserved 交互**:$\rho$ 最高——保留的交互净效应显著,是真正的推理信号 ## 与泛化性的互补关系 $\rho$(未抵消效应比例)与 [[interaction-generalizability|γ(泛化性)]] 是两个互补的交互质量指标: - $\rho$ 衡量**内部一致性**(效应是否互相抵消) - $\gamma$ 衡量**外部一致性**(是否跨模型通用) 在 Zhang et al. 的实验中,Removed 交互同时具有 $\gamma \approx 0$ 和 $\rho \approx 0$,Preserved 交互在两个指标上都最高——两者高度一致。 ## 相关概念 - [[interaction-generalizability|交互泛化性]] - [[interaction-types-sft|SFT 中的三类交互]] - [[interaction-order|交互阶数]]