4.4 KiB
4.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| CL-bench: 上下文学习基准——首篇定义context learning范式的论文 | 2026-05-01 | 2026-05-01 | paper |
|
|
CL-bench: A Benchmark for Context Learning
Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
核心问题
当前 LLM 擅长利用预训练知识回答 prompt,但现实任务本质上是上下文依赖的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 context learning(上下文学习),并构建了 CL-bench 基准来评估它。
方法论
基准规模
- 500 个复杂上下文 + 1,899 个任务 + 31,607 个验证 rubrics
- 全部由经验丰富的领域专家人工策展
- 每个上下文平均耗时约 20 小时专家工作量
- 每个任务平均 16.6 个 rubrics
污染防护
三种策略确保任务不能仅靠预训练知识解决:
- 虚构创造:发明完整的虚构法律体系、编程语言等
- 修改现有内容:改变历史事件、科学定义、技术文档
- 纳入小众/新兴内容:前沿研究、新发布产品手册、窄领域专业知识
上下文无关消融实验:无上下文时模型解决率 < 1%
四类上下文(→18 子类)
| 类别 | 占比 | 子类数 | 核心挑战 |
|---|---|---|---|
| 领域知识推理 | ~50% | 7 | 学习新领域知识并应用(法律、金融、科学) |
| 规则系统应用 | ~28% | 5 | 理解新规则系统并正确执行(博弈、数学、编程) |
| 程序性任务执行 | ~12% | 3 | 学习复杂操作流程并执行(产品手册、工作流) |
| 经验发现与模拟 | ~10% | 3 | 从实验/观测数据中归纳模式和规律 |
评估方式
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求:只有通过所有 rubrics 才算解决任务。评估可靠性:inter-verifier 一致性 > 90%。
十模型评估结果
| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|---|---|---|---|---|---|
| GPT-5.1 (High) | 23.7% | 25.3% | 23.7% | 23.8% | 18.1% |
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
| 平均 | 17.2% | — | — | — | — |
核心发现
1. Context Learning 是当前 LLM 的根本瓶颈
十模型平均仅 17.2%,最佳仅 23.7%——无模型超过 30%
2. 类别间性能差异巨大
- 领域知识推理最易(25.3%),经验发现与模拟最难(~11%)
- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%
3. 不是长上下文问题
任务难度与上下文长度无强相关性——推理质量才决定成败(与 CL-bench Life 一致)
4. 专业领域上下文 vs 真实生活上下文
本文是 CL-bench 系列的首篇,关注专业领域上下文。后续工作 hunyuan-team-cl-bench-life 扩展到真实生活上下文,两者互补。
与 CL-bench Life 的关系
| 维度 | CL-bench | CL-bench Life |
|---|---|---|
| 上下文类型 | 专业领域(虚构法律、编程、金融) | 真实生活(群聊、笔记、行为日志) |
| 上下文数 | 500 | 405 |
| 任务数 | 1,899 | 405 |
| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 |
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
| 核心挑战 | 归纳式推理(经验发现) | 混乱上下文推理(通信社交) |
相关概念
- context-learning — 上下文学习能力定义
- cl-bench-life — CL-bench Life(后续工作)
- real-life-context-learning — 真实生活上下文学习
- domain-knowledge-reasoning — 领域知识推理
- rule-system-application — 规则系统应用
- procedural-task-execution — 程序性任务执行
- empirical-discovery-simulation — 经验发现与模拟