Files
myWiki/papers/dou-cl-bench.md

96 lines
4.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment]
sources: [raw/papers/dou-cl-bench-2026.md]
---
# CL-bench: A Benchmark for Context Learning
> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
## 核心问题
当前 LLM 擅长利用预训练知识回答 prompt但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。
## 方法论
### 基准规模
- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
- 全部由经验丰富的领域专家人工策展
- 每个上下文平均耗时约 20 小时专家工作量
- 每个任务平均 16.6 个 rubrics
### 污染防护
三种策略确保任务**不能仅靠预训练知识**解决:
1. **虚构创造**:发明完整的虚构法律体系、编程语言等
2. **修改现有内容**:改变历史事件、科学定义、技术文档
3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识
上下文无关消融实验:无上下文时模型解决率 **< 1%**
### 四类上下文→18 子类)
| 类别 | 占比 | 子类数 | 核心挑战 |
|------|------|--------|---------|
| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用法律金融科学 |
| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行博弈数学编程 |
| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行产品手册工作流 |
| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
### 评估方式
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估严格要求**只有通过所有 rubrics 才算解决任务**。评估可靠性inter-verifier 一致性 > 90%。
## 十模型评估结果
| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|------|------|---------|---------|---------|---------|
| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
| **平均** | **17.2%** | — | — | — | — |
## 核心发现
### 1. Context Learning 是当前 LLM 的根本瓶颈
十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%**
### 2. 类别间性能差异巨大
- 领域知识推理最易25.3%),经验发现与模拟最难(~11%
- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%
### 3. 不是长上下文问题
任务难度与上下文长度**无强相关性**——推理质量才决定成败 CL-bench Life 一致
### 4. 专业领域上下文 vs 真实生活上下文
本文是 CL-bench 系列的**首篇**关注专业领域上下文后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文两者互补
## 与 CL-bench Life 的关系
| 维度 | CL-bench | CL-bench Life |
|------|---------|---------------|
| 上下文类型 | 专业领域虚构法律编程金融 | 真实生活群聊笔记行为日志 |
| 上下文数 | 500 | 405 |
| 任务数 | 1,899 | 405 |
| 类别 | 4 × 18 子类 | 3 × 9 子类 |
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
| 核心挑战 | 归纳式推理经验发现 | 混乱上下文推理通信社交 |
## 相关概念
- [[context-learning]] 上下文学习能力定义
- [[cl-bench-life]] CL-bench Life后续工作
- [[real-life-context-learning]] 真实生活上下文学习
- [[domain-knowledge-reasoning]] 领域知识推理
- [[rule-system-application]] 规则系统应用
- [[procedural-task-execution]] 程序性任务执行
- [[empirical-discovery-simulation]] 经验发现与模拟