SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

5.3 KiB

Raw Blame History

CL-bench 论文集成 Review

生成日期：2026-05-01 | 论文 arXiv ID：2602.03587

📌 基本信息

维度	内容
论文标题	CL-bench: A Benchmark for Context Learning
作者	Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors)
机构	Fudan University & Tencent Hunyuan
arXiv	2602.03587
日期	2026-02-03
Wiki 添加	2026-05-01

🎯 核心概念

1. Context Learning 范式定义

本文首次系统定义 context learning 这一能力：模型从任务特定上下文中学习新知识并推理求解——所需知识不在预训练语料中。这区别于 ICL（few-shot 示例匹配）、长上下文（检索已知概念）和 RAG（证据融合）。

2. CL-bench 四类别框架

500 上下文 × 1,899 任务 × 31,607 rubrics，分为四大类（→18 子类）：

领域知识推理（最易，25.3%）：演绎式——学习新领域知识并应用
规则系统应用（子类差异最大）：法律 >40% vs 数学 <15%
程序性任务执行：学习复杂操作流程并精确执行
经验发现与模拟（最难，~11%）：归纳式——从数据中发现规律

3. 污染防护设计

三种策略确保任务不能靠预训练知识解决：虚构创造、修改现有内容、纳入小众新兴内容。上下文无关消融验证：无上下文时解决率 < 1%。

4. CL-bench → CL-bench Life 的演化路径

本文是 CL-bench 系列的首篇（专业领域上下文），后续 cl-bench-life 扩展到真实生活上下文。两者互补覆盖 "context learning" 的全谱系。

🔗 概念网络

核心连接

dou-cl-bench (论文)
    ├── context-learning ───────── 范式定义（从占位升级为完整概念）
    ├── domain-knowledge-reasoning ───── 类别1（演绎式）
    ├── rule-system-application ───── 类别2（规则系统）
    ├── procedural-task-execution ───── 类别3（程序执行）
    └── empirical-discovery-simulation ───── 类别4（归纳式，最难）

CL-bench 系列完整网络

context-learning（被 CL-bench 首次定义）
    ├── dou-cl-bench ───────── 专业领域上下文（4类，500上下文）
    │   ├── domain-knowledge-reasoning (7子类)
    │   ├── rule-system-application (5子类)
    │   ├── procedural-task-execution (3子类)
    │   └── empirical-discovery-simulation (3子类, 归纳式)
    │
    └── cl-bench-life ───────── 真实生活上下文（3类，405上下文）
        ├── real-life-context-learning
        ├── context-misuse (76-84%错误的根因)
        └── messy-context-reasoning

📚 Wiki 集成

指标	数值
新增页面	7 个（1 论文 + 1 raw + 4 类别概念 + 1 概念升级）
总规模	189 → 195 页
核心概念	1 范式定义 + 4 类别概念
链接完整性	✅ 100%，0 断链
系列完整性	✅ CL-bench + CL-bench Life 双篇齐备

💡 关键洞察

"归纳推理"是 LLM 的阿克琉斯之踵

CL-bench 最震撼的发现：四类上下文中，前三个依赖演绎（应用给定规则），第 4 类需要归纳（从数据发现规律）——而第 4 类是绝对最难（~11%）。这与人类智能形成鲜明对比：人类通常认为演绎比归纳更困难。

这暗示了当前 LLM 在科学发现（假设形成 → 模式识别 → 规律抽象）方面的根本性局限，而非简单的知识检索不足。

法律推理的矛盾现象

法律/监管子类（CL-bench 中最高 >40%）vs 数学形式主义子类（<15%）：两者都是规则系统，但表现天差地别。可能原因是：

法律推理是文本化的（判例、条文、论证），与 LLM 的文本训练范式天然契合
数学推理需要符号化操作和严格的证明结构，与文本推理有本质不同

这带来了一个发人深省的问题：当前 LLM 的"推理"更接近法律论证（文本编织），而非数学证明（符号操作）。

CL-bench → CL-bench Life 的范式递进

从专业领域上下文到真实生活上下文，CL-bench 系列揭示了一个递进的困难层级：

结构化专业规则（法律）→ 形式化符号推理（数学）
    → 混乱社交上下文（群聊）
        → 长时序行为日志（健身记录）
            → 科学数据归纳（经验发现）← 最难

我们已在 wiki 中完整覆盖这五个层级。

📁 文件清单

文件	类型	说明
`raw/papers/dou-cl-bench-2026.md`	原始存档	论文元数据
`papers/dou-cl-bench.md`	论文主页面	中文综述
`concepts/context-learning.md`	概念（从占位升级）	范式定义
`concepts/domain-knowledge-reasoning.md`	Tier 1 概念	类别 1
`concepts/rule-system-application.md`	Tier 1 概念	类别 2
`concepts/procedural-task-execution.md`	Tier 1 概念	类别 3
`concepts/empirical-discovery-simulation.md`	Tier 1 概念	类别 4

Generated by 小赫 | Wiki Paper Integration Workflow v2.1

5.3 KiB Raw Blame History Unescape Escape