Files
myWiki/papers/dou-cl-bench.md

4.4 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
CL-bench: 上下文学习基准——首篇定义context learning范式的论文 2026-05-01 2026-05-01 paper
benchmark
llm
alignment
raw/papers/dou-cl-bench-2026.md

CL-bench: A Benchmark for Context Learning

Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03

核心问题

当前 LLM 擅长利用预训练知识回答 prompt但现实任务本质上是上下文依赖的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 context learning(上下文学习),并构建了 CL-bench 基准来评估它。

方法论

基准规模

  • 500 个复杂上下文 + 1,899 个任务 + 31,607 个验证 rubrics
  • 全部由经验丰富的领域专家人工策展
  • 每个上下文平均耗时约 20 小时专家工作量
  • 每个任务平均 16.6 个 rubrics

污染防护

三种策略确保任务不能仅靠预训练知识解决:

  1. 虚构创造:发明完整的虚构法律体系、编程语言等
  2. 修改现有内容:改变历史事件、科学定义、技术文档
  3. 纳入小众/新兴内容:前沿研究、新发布产品手册、窄领域专业知识

上下文无关消融实验:无上下文时模型解决率 < 1%

四类上下文→18 子类)

类别 占比 子类数 核心挑战
领域知识推理 ~50% 7 学习新领域知识并应用(法律、金融、科学)
规则系统应用 ~28% 5 理解新规则系统并正确执行(博弈、数学、编程)
程序性任务执行 ~12% 3 学习复杂操作流程并执行(产品手册、工作流)
经验发现与模拟 ~10% 3 从实验/观测数据中归纳模式和规律

评估方式

使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求:只有通过所有 rubrics 才算解决任务。评估可靠性inter-verifier 一致性 > 90%。

十模型评估结果

模型 整体 领域知识 规则系统 程序执行 经验发现
GPT-5.1 (High) 23.7% 25.3% 23.7% 23.8% 18.1%
GPT-5.2 (High) 18.1% 21.1% 23.7% 19.0% 22.6%
o3 (High) 17.6% 18.7% 17.6% 18.0% 17.8%
Kimi K2 Thinking 17.6% 18.0% 18.8% 17.0% 12.6%
Claude Opus 4.5 17.2% 18.0% 17.3% 19.4% 8.9%
HY 2.0 Thinking 17.2% 21.4% 11.7% 17.8% 17.8%
Gemini 3 Pro 15.8% 15.5% 17.7% 16.4% 10.1%
Qwen 3 Max 14.1% 13.5% 15.6% 15.2% 9.0%
Doubao 1.6 13.4% 13.7% 14.2% 13.9% 9.4%
DeepSeek V3.2 13.2% 13.6% 13.8% 14.2% 8.0%
平均 17.2%

核心发现

1. Context Learning 是当前 LLM 的根本瓶颈

十模型平均仅 17.2%,最佳仅 23.7%——无模型超过 30%

2. 类别间性能差异巨大

  • 领域知识推理最易25.3%),经验发现与模拟最难(~11%
  • 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%

3. 不是长上下文问题

任务难度与上下文长度无强相关性——推理质量才决定成败(与 CL-bench Life 一致)

4. 专业领域上下文 vs 真实生活上下文

本文是 CL-bench 系列的首篇,关注专业领域上下文。后续工作 hunyuan-team-cl-bench-life 扩展到真实生活上下文,两者互补。

与 CL-bench Life 的关系

维度 CL-bench CL-bench Life
上下文类型 专业领域(虚构法律、编程、金融) 真实生活(群聊、笔记、行为日志)
上下文数 500 405
任务数 1,899 405
类别 4 类 × 18 子类 3 类 × 9 子类
最佳成绩 23.7% (GPT-5.1) 19.3% (GPT-5.4)
核心挑战 归纳式推理(经验发现) 混乱上下文推理(通信社交)

相关概念