20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/dou-cl-bench.md
+++ b/papers/dou-cl-bench.md
@@ -0,0 +1,95 @@
+---
+title: "CL-bench: 上下文学习基准——首篇定义context learning范式的论文"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: [benchmark, llm, alignment]
+sources: [raw/papers/dou-cl-bench-2026.md]
+---
+
+# CL-bench: A Benchmark for Context Learning
+
+> Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03
+
+## 核心问题
+
+当前 LLM 擅长利用预训练知识回答 prompt，但现实任务本质上是**上下文依赖**的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 **context learning**（上下文学习），并构建了 CL-bench 基准来评估它。
+
+## 方法论
+
+### 基准规模
+- **500 个复杂上下文** + **1,899 个任务** + **31,607 个验证 rubrics**
+- 全部由经验丰富的领域专家人工策展
+- 每个上下文平均耗时约 20 小时专家工作量
+- 每个任务平均 16.6 个 rubrics
+
+### 污染防护
+三种策略确保任务**不能仅靠预训练知识**解决：
+1. **虚构创造**：发明完整的虚构法律体系、编程语言等
+2. **修改现有内容**：改变历史事件、科学定义、技术文档
+3. **纳入小众/新兴内容**：前沿研究、新发布产品手册、窄领域专业知识
+
+上下文无关消融实验：无上下文时模型解决率 **< 1%**
+
+### 四类上下文（→18 子类）
+
+| 类别 | 占比 | 子类数 | 核心挑战 |
+|------|------|--------|---------|
+| **领域知识推理** | ~50% | 7 | 学习新领域知识并应用（法律、金融、科学） |
+| **规则系统应用** | ~28% | 5 | 理解新规则系统并正确执行（博弈、数学、编程） |
+| **程序性任务执行** | ~12% | 3 | 学习复杂操作流程并执行（产品手册、工作流） |
+| **经验发现与模拟** | ~10% | 3 | 从实验/观测数据中**归纳**模式和规律 |
+
+### 评估方式
+使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求：**只有通过所有 rubrics 才算解决任务**。评估可靠性：inter-verifier 一致性 > 90%。
+
+## 十模型评估结果
+
+| 模型 | 整体 | 领域知识 | 规则系统 | 程序执行 | 经验发现 |
+|------|------|---------|---------|---------|---------|
+| GPT-5.1 (High) | **23.7%** | 25.3% | 23.7% | 23.8% | 18.1% |
+| GPT-5.2 (High) | 18.1% | 21.1% | 23.7% | 19.0% | 22.6% |
+| o3 (High) | 17.6% | 18.7% | 17.6% | 18.0% | 17.8% |
+| Kimi K2 Thinking | 17.6% | 18.0% | 18.8% | 17.0% | 12.6% |
+| Claude Opus 4.5 | 17.2% | 18.0% | 17.3% | 19.4% | 8.9% |
+| HY 2.0 Thinking | 17.2% | 21.4% | 11.7% | 17.8% | 17.8% |
+| Gemini 3 Pro | 15.8% | 15.5% | 17.7% | 16.4% | 10.1% |
+| Qwen 3 Max | 14.1% | 13.5% | 15.6% | 15.2% | 9.0% |
+| Doubao 1.6 | 13.4% | 13.7% | 14.2% | 13.9% | 9.4% |
+| DeepSeek V3.2 | 13.2% | 13.6% | 13.8% | 14.2% | 8.0% |
+| **平均** | **17.2%** | — | — | — | — |
+
+## 核心发现
+
+### 1. Context Learning 是当前 LLM 的根本瓶颈
+十模型平均仅 17.2%，最佳仅 23.7%——**无模型超过 30%**
+
+### 2. 类别间性能差异巨大
+- 领域知识推理最易（25.3%），经验发现与模拟最难（~11%）
+- 甚至子类间也存在巨大差异：法律/监管 >40%，数学形式主义 <15%
+
+### 3. 不是长上下文问题
+任务难度与上下文长度**无强相关性**——推理质量才决定成败（与 CL-bench Life 一致）
+
+### 4. 专业领域上下文 vs 真实生活上下文
+本文是 CL-bench 系列的**首篇**，关注专业领域上下文。后续工作 [[hunyuan-team-cl-bench-life|CL-bench Life]] 扩展到真实生活上下文，两者互补。
+
+## 与 CL-bench Life 的关系
+
+| 维度 | CL-bench | CL-bench Life |
+|------|---------|---------------|
+| 上下文类型 | 专业领域（虚构法律、编程、金融） | 真实生活（群聊、笔记、行为日志） |
+| 上下文数 | 500 | 405 |
+| 任务数 | 1,899 | 405 |
+| 类别 | 4 类 × 18 子类 | 3 类 × 9 子类 |
+| 最佳成绩 | 23.7% (GPT-5.1) | 19.3% (GPT-5.4) |
+| 核心挑战 | 归纳式推理（经验发现） | 混乱上下文推理（通信社交） |
+
+## 相关概念
+- [[context-learning]] — 上下文学习能力定义
+- [[cl-bench-life]] — CL-bench Life（后续工作）
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[domain-knowledge-reasoning]] — 领域知识推理
+- [[rule-system-application]] — 规则系统应用
+- [[procedural-task-execution]] — 程序性任务执行
+- [[empirical-discovery-simulation]] — 经验发现与模拟