SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

4.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

CL-bench: A Benchmark for Context Learning

Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors, Fudan Univ. & Tencent Hunyuan) | arXiv:2602.03587 | 2026-02-03

核心问题

当前 LLM 擅长利用预训练知识回答 prompt，但现实任务本质上是上下文依赖的——模型必须从任务特定上下文中学习新知识来推理求解。本文首次将这种能力定义为 context learning（上下文学习），并构建了 CL-bench 基准来评估它。

方法论

基准规模

500 个复杂上下文 + 1,899 个任务 + 31,607 个验证 rubrics
全部由经验丰富的领域专家人工策展
每个上下文平均耗时约 20 小时专家工作量
每个任务平均 16.6 个 rubrics

污染防护

三种策略确保任务不能仅靠预训练知识解决：

虚构创造：发明完整的虚构法律体系、编程语言等
修改现有内容：改变历史事件、科学定义、技术文档
纳入小众/新兴内容：前沿研究、新发布产品手册、窄领域专业知识

上下文无关消融实验：无上下文时模型解决率 < 1%

四类上下文（→18 子类）

类别	占比	子类数	核心挑战
领域知识推理	~50%	7	学习新领域知识并应用（法律、金融、科学）
规则系统应用	~28%	5	理解新规则系统并正确执行（博弈、数学、编程）
程序性任务执行	~12%	3	学习复杂操作流程并执行（产品手册、工作流）
经验发现与模拟	~10%	3	从实验/观测数据中归纳模式和规律

评估方式

使用 LM-as-judge (GPT-5.1) 基于任务级 rubrics 自动评估。严格要求：只有通过所有 rubrics 才算解决任务。评估可靠性：inter-verifier 一致性 > 90%。

十模型评估结果

模型	整体	领域知识	规则系统	程序执行	经验发现
GPT-5.1 (High)	23.7%	25.3%	23.7%	23.8%	18.1%
GPT-5.2 (High)	18.1%	21.1%	23.7%	19.0%	22.6%
o3 (High)	17.6%	18.7%	17.6%	18.0%	17.8%
Kimi K2 Thinking	17.6%	18.0%	18.8%	17.0%	12.6%
Claude Opus 4.5	17.2%	18.0%	17.3%	19.4%	8.9%
HY 2.0 Thinking	17.2%	21.4%	11.7%	17.8%	17.8%
Gemini 3 Pro	15.8%	15.5%	17.7%	16.4%	10.1%
Qwen 3 Max	14.1%	13.5%	15.6%	15.2%	9.0%
Doubao 1.6	13.4%	13.7%	14.2%	13.9%	9.4%
DeepSeek V3.2	13.2%	13.6%	13.8%	14.2%	8.0%
平均	17.2%	—	—	—	—

核心发现

1. Context Learning 是当前 LLM 的根本瓶颈

十模型平均仅 17.2%，最佳仅 23.7%——无模型超过 30%

2. 类别间性能差异巨大

领域知识推理最易（25.3%），经验发现与模拟最难（~11%）
甚至子类间也存在巨大差异：法律/监管 >40%，数学形式主义 <15%

3. 不是长上下文问题

任务难度与上下文长度无强相关性——推理质量才决定成败（与 CL-bench Life 一致）

4. 专业领域上下文 vs 真实生活上下文

本文是 CL-bench 系列的首篇，关注专业领域上下文。后续工作 hunyuan-team-cl-bench-life 扩展到真实生活上下文，两者互补。

与 CL-bench Life 的关系

维度	CL-bench	CL-bench Life
上下文类型	专业领域（虚构法律、编程、金融）	真实生活（群聊、笔记、行为日志）
上下文数	500	405
任务数	1,899	405
类别	4 类 × 18 子类	3 类 × 9 子类
最佳成绩	23.7% (GPT-5.1)	19.3% (GPT-5.4)
核心挑战	归纳式推理（经验发现）	混乱上下文推理（通信社交）

4.4 KiB Raw Blame History Unescape Escape