1.5 KiB
1.5 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Distractor Context / 干扰上下文 | 2026-05-14 | concept |
|
|
Distractor Context
干扰上下文(Distractor Context)是 delegate-52 实验设计中的一个关键要素:每个工作环境包含 8-12k tokens 的话题相关但不需编辑的文档,模拟真实场景中检索精度不完美的情况。
设计动机
在真实工作环境中,用户提供给 LLM 的文档并非全都与当前任务相关(检索精度不完美)。干扰上下文迫使模型在编辑前判断哪些文档与任务相关。
实验发现
| 度量 | 含干扰 | 去干扰 | 差异 |
|---|---|---|---|
| 第 2 次交互 | 94.3 (GPT 5.4) | 94.7 | +0.4% |
| 第 20 次交互 | 71.5 (GPT 5.4) | 77.8 | +6.3% |
关键洞察
干扰的危害随交互长度放大——短交互评估会严重低估干扰的长期影响。这个发现与 Shi et al. (2023) 的无关上下文干扰研究一致,并扩展到长视界设置。
对检索系统的意义
长期基准能捕捉改进检索(减少干扰)的持续效果——这对检索系统的评估有直接意义:仅测量短期精度可能低估检索质量对下游任务的影响。
相关概念
- delegate-52 — 使用干扰上下文的基准
- long-horizon-evaluation — 揭示干扰放大效应的框架
- document-degradation — 干扰加剧的退化