20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

95
papers/dou-cl-bench.md Normal file
View File

@@ -0,0 +1,95 @@
---
title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment]
sources: [raw/papers/dou-cl-bench-2026.md]
---
# CL-bench: A Benchmark for Context Learning
> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
## 核心问题
当前 LLM 擅长利用预训练知识回答 prompt但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**(上下文学习),并构建了 CL-bench 基准来评估它。
## 方法论
### 基准规模
- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
- 全部由经验丰富的领域专家人工策展
- 每个上下文平均耗时约 20 小时专家工作量
- 每个任务平均 16.6 个 rubrics
### 污染防护
三种策略确保任务**不能仅靠预训练知识**解决:
1. **虚构创造**:发明完整的虚构法律体系、编程语言等
2. **修改现有内容**:改变历史事件、科学定义、技术文档
3. **纳入小众/新兴内容**:前沿研究、新发布产品手册、窄领域专业知识
上下文无关消融实验:无上下文时模型解决率 **< 1%**
### 四类上下文→18 子类)
| 类别 | 占比 | 子类数 | 核心挑战 |
|------|------|--------|---------|
| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用法律金融科学 |
| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行博弈数学编程 |
| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行产品手册工作流 |
| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
### 评估方式
使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估严格要求**只有通过所有 rubrics 才算解决任务**。评估可靠性inter-verifier 一致性 > 90%。
## 十模型评估结果
| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
|------|------|---------|---------|---------|---------|
| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
| **平均** | **17.2%** | — | — | — | — |
## 核心发现
### 1. Context Learning 是当前 LLM 的根本瓶颈
十模型平均仅 17.2%,最佳仅 23.7%——**无模型超过 30%**
### 2. 类别间性能差异巨大
- 领域知识推理最易25.3%),经验发现与模拟最难(~11%
- 甚至子类间也存在巨大差异:法律/监管 >40%,数学形式主义 <15%
### 3. 不是长上下文问题
任务难度与上下文长度**无强相关性**——推理质量才决定成败 CL-bench Life 一致
### 4. 专业领域上下文 vs 真实生活上下文
本文是 CL-bench 系列的**首篇**关注专业领域上下文后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文两者互补
## 与 CL-bench Life 的关系
| 维度 | CL-bench | CL-bench Life |
|------|---------|---------------|
| 上下文类型 | 专业领域虚构法律编程金融 | 真实生活群聊笔记行为日志 |
| 上下文数 | 500 | 405 |
| 任务数 | 1,899 | 405 |
| 类别 | 4 × 18 子类 | 3 × 9 子类 |
| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
| 核心挑战 | 归纳式推理经验发现 | 混乱上下文推理通信社交 |
## 相关概念
- [[context-learning]] 上下文学习能力定义
- [[cl-bench-life]] CL-bench Life后续工作
- [[real-life-context-learning]] 真实生活上下文学习
- [[domain-knowledge-reasoning]] 领域知识推理
- [[rule-system-application]] 规则系统应用
- [[procedural-task-execution]] 程序性任务执行
- [[empirical-discovery-simulation]] 经验发现与模拟