--- title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文" created: 2026-05-01 updated: 2026-05-01 type: paper tags: [benchmark, llm, alignment] sources: [raw/papers/dou-cl-bench-2026.md] --- # CL-bench: A Benchmark for Context Learning > Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03 ## 核心问题 当前 LLM 擅长利用预训练知识回答 prompt,但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。 ## 方法论 ### 基准规模 - **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics** - 全部由经验丰富的领域专家人工策展 - 每个上下文平均耗时约 20 小时专家工作量 - 每个任务平均 16.6 个 rubrics ### 污染防护 三种策略确保任务**不能仅靠预训练知识**解决: 1. **虚构创造**:发明完整的虚构法律体系、编程语言等 2. **修改现有内容**:改变历史事件、科学定义、技术文档 3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识 上下文无关消融实验:无上下文时模型解决率 **< 1%** ### 四类上下文(→18 子类) | 类别 | 占比 | 子类数 | 核心挑战 | |------|------|--------|---------| | **领域知识推理** | ~50% | 7 | 学习新领域知识并应用(法律、金融、科学) | | **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行(博弈、数学、编程) | | **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行(产品手册、工作流) | | **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 | ### 评估方式 使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求:**只有通过所有 rubrics 才算解决任务**。评估可靠性:inter-verifier 一致性 > 90%。 ## 十模型评估结果 | 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 | |------|------|---------|---------|---------|---------| | GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% | | GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% | | o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% | | Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% | | Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% | | HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% | | Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% | | Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% | | Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% | | DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% | | **平均** | **17.2%** | — | — | — | — | ## 核心发现 ### 1. Context Learning 是当前 LLM 的根本瓶颈 十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%** ### 2. 类别间性能差异巨大 - 领域知识推理最易(25.3%),经验发现与模拟最难(~11%) - 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15% ### 3. 不是长上下文问题 任务难度与上下文长度**无强相关性**——推理质量才决定成败(与 CL-bench Life 一致) ### 4. 专业领域上下文 vs 真实生活上下文 本文是 CL-bench 系列的**首篇**,关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文,两者互补。 ## 与 CL-bench Life 的关系 | 维度 | CL-bench | CL-bench Life | |------|---------|---------------| | 上下文类型 | 专业领域(虚构法律、编程、金融) | 真实生活(群聊、笔记、行为日志) | | 上下文数 | 500 | 405 | | 任务数 | 1,899 | 405 | | 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 | | 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) | | 核心挑战 | 归纳式推理(经验发现) | 混乱上下文推理(通信社交) | ## 相关概念 - [[context-learning]] — 上下文学习能力定义 - [[cl-bench-life]] — CL-bench Life(后续工作) - [[real-life-context-learning]] — 真实生活上下文学习 - [[domain-knowledge-reasoning]] — 领域知识推理 - [[rule-system-application]] — 规则系统应用 - [[procedural-task-execution]] — 程序性任务执行 - [[empirical-discovery-simulation]] — 经验发现与模拟