myWiki/papers/dou-cl-bench.md

---
title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment]
sources: [raw/papers/dou-cl-bench-2026.md]
---

# CL-bench: A Benchmark for Context Learning

> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03

## 核心问题

当前 LLM 擅长利用预训练知识回答 prompt，但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**（上下文学习），并构建了 CL-bench 基准来评估它。

## 方法论

### 基准规模
- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
- 全部由经验丰富的领域专家人工策展
- 每个上下文平均耗时约 20 小时专家工作量
- 每个任务平均 16.6 个 rubrics

### 污染防护
三种策略确保任务**不能仅靠预训练知识**解决：
1. **虚构创造**：发明完整的虚构法律体系、编程语言等
2. **修改现有内容**：改变历史事件、科学定义、技术文档
3. **纳入小众/新兴内容**：前沿研究、新发布产品手册、窄领域专业知识

上下文无关消融实验：无上下文时模型解决率 **< 1%**

### 四类上下文（→18 子类）

| 类别 | 占比 | 子类数 | 核心挑战 |
|------|------|--------|---------|
| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用（法律、金融、科学） |
| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行（博弈、数学、编程） |
| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行（产品手册、工作流） |
| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |

### 评估方式
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求：**只有通过所有 rubrics 才算解决任务**。评估可靠性：inter-verifier 一致性 > 90%。

## 十模型评估结果

| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|------|------|---------|---------|---------|---------|
| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
| **平均** | **17.2%** | — | — | — | — |

## 核心发现

### 1. Context Learning 是当前 LLM 的根本瓶颈
十模型平均仅 17.2%，最佳仅 23.7%——**无模型超过 30%**

### 2. 类别间性能差异巨大
- 领域知识推理最易（25.3%），经验发现与模拟最难（~11%）
- 甚至子类间也存在巨大差异：法律/监管 >40%，数学形式主义 <15%

### 3. 不是长上下文问题
任务难度与上下文长度**无强相关性**——推理质量才决定成败（与 CL-bench Life 一致）

### 4. 专业领域上下文 vs 真实生活上下文
本文是 CL-bench 系列的**首篇**，关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文，两者互补。

## 与 CL-bench Life 的关系

| 维度 | CL-bench | CL-bench Life |
|------|---------|---------------|
| 上下文类型 | 专业领域（虚构法律、编程、金融） | 真实生活（群聊、笔记、行为日志） |
| 上下文数 | 500 | 405 |
| 任务数 | 1,899 | 405 |
| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 |
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
| 核心挑战 | 归纳式推理（经验发现） | 混乱上下文推理（通信社交） |

## 相关概念
- [[context-learning]] — 上下文学习能力定义
- [[cl-bench-life]] — CL-bench Life（后续工作）
- [[real-life-context-learning]] — 真实生活上下文学习
- [[domain-knowledge-reasoning]] — 领域知识推理
- [[rule-system-application]] — 规则系统应用
- [[procedural-task-execution]] — 程序性任务执行
- [[empirical-discovery-simulation]] — 经验发现与模拟