20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/reviews/cl-bench-review-20260501.md
+++ b/reviews/cl-bench-review-20260501.md
@@ -0,0 +1,128 @@
+# CL-bench 论文集成 Review
+
+> 生成日期：2026-05-01 | 论文 arXiv ID：2602.03587
+
+---
+
+## 📌 基本信息
+
+| 维度 | 内容 |
+|------|------|
+| **论文标题** | CL-bench: A Benchmark for Context Learning |
+| **作者** | Shihan Dou, Ming Zhang, Zhangyue Yin et al. (27 authors) |
+| **机构** | Fudan University & Tencent Hunyuan |
+| **arXiv** | [2602.03587](https://arxiv.org/abs/2602.03587) |
+| **日期** | 2026-02-03 |
+| **Wiki 添加** | 2026-05-01 |
+
+---
+
+## 🎯 核心概念
+
+### 1. Context Learning 范式定义
+本文**首次系统定义** context learning 这一能力：模型从任务特定上下文中**学习新知识**并推理求解——所需知识不在预训练语料中。这区别于 ICL（few-shot 示例匹配）、长上下文（检索已知概念）和 RAG（证据融合）。
+
+### 2. CL-bench 四类别框架
+500 上下文 × 1,899 任务 × 31,607 rubrics，分为四大类（→18 子类）：
+- **领域知识推理**（最易，25.3%）：演绎式——学习新领域知识并应用
+- **规则系统应用**（子类差异最大）：法律 >40% vs 数学 <15%
+- **程序性任务执行**：学习复杂操作流程并精确执行
+- **经验发现与模拟**（最难，~11%）：**归纳式**——从数据中发现规律
+
+### 3. 污染防护设计
+三种策略确保任务不能靠预训练知识解决：虚构创造、修改现有内容、纳入小众新兴内容。上下文无关消融验证：无上下文时解决率 < 1%。
+
+### 4. CL-bench → CL-bench Life 的演化路径
+本文是 CL-bench 系列的首篇（专业领域上下文），后续 [[cl-bench-life|CL-bench Life]] 扩展到真实生活上下文。两者互补覆盖 "context learning" 的全谱系。
+
+---
+
+## 🔗 概念网络
+
+### 核心连接
+
+```
+dou-cl-bench (论文)
+    ├── context-learning ───────── 范式定义（从占位升级为完整概念）
+    ├── domain-knowledge-reasoning ───── 类别1（演绎式）
+    ├── rule-system-application ───── 类别2（规则系统）
+    ├── procedural-task-execution ───── 类别3（程序执行）
+    └── empirical-discovery-simulation ───── 类别4（归纳式，最难）
+```
+
+### CL-bench 系列完整网络
+
+```
+context-learning（被 CL-bench 首次定义）
+    ├── dou-cl-bench ───────── 专业领域上下文（4类，500上下文）
+    │   ├── domain-knowledge-reasoning (7子类)
+    │   ├── rule-system-application (5子类)
+    │   ├── procedural-task-execution (3子类)
+    │   └── empirical-discovery-simulation (3子类, 归纳式)
+    │
+    └── cl-bench-life ───────── 真实生活上下文（3类，405上下文）
+        ├── real-life-context-learning
+        ├── context-misuse (76-84%错误的根因)
+        └── messy-context-reasoning
+```
+
+---
+
+## 📚 Wiki 集成
+
+| 指标 | 数值 |
+|------|------|
+| 新增页面 | **7 个**（1 论文 + 1 raw + 4 类别概念 + 1 概念升级） |
+| 总规模 | 189 → **195 页** |
+| 核心概念 | 1 范式定义 + 4 类别概念 |
+| 链接完整性 | ✅ 100%，0 断链 |
+| 系列完整性 | ✅ CL-bench + CL-bench Life 双篇齐备 |
+
+---
+
+## 💡 关键洞察
+
+### "归纳推理"是 LLM 的阿克琉斯之踵
+
+CL-bench 最震撼的发现：四类上下文中，前三个依赖**演绎**（应用给定规则），第 4 类需要**归纳**（从数据发现规律）——而第 4 类是绝对最难（~11%）。这与人类智能形成鲜明对比：人类通常认为演绎比归纳更困难。
+
+这暗示了当前 LLM 在**科学发现**（假设形成 → 模式识别 → 规律抽象）方面的根本性局限，而非简单的知识检索不足。
+
+### 法律推理的矛盾现象
+
+法律/监管子类（CL-bench 中最高 >40%）vs 数学形式主义子类（<15%）：两者都是规则系统，但表现天差地别。可能原因是：
+- 法律推理是**文本化**的（判例、条文、论证），与 LLM 的文本训练范式天然契合
+- 数学推理需要**符号化**操作和严格的证明结构，与文本推理有本质不同
+
+这带来了一个发人深省的问题：当前 LLM 的"推理"更接近法律论证（文本编织），而非数学证明（符号操作）。
+
+### CL-bench → CL-bench Life 的范式递进
+
+从专业领域上下文到真实生活上下文，CL-bench 系列揭示了一个递进的困难层级：
+
+```
+结构化专业规则（法律）→ 形式化符号推理（数学）
+    → 混乱社交上下文（群聊）
+        → 长时序行为日志（健身记录）
+            → 科学数据归纳（经验发现）← 最难
+```
+
+我们已在 wiki 中完整覆盖这五个层级。
+
+---
+
+## 📁 文件清单
+
+| 文件 | 类型 | 说明 |
+|------|------|------|
+| `raw/papers/dou-cl-bench-2026.md` | 原始存档 | 论文元数据 |
+| `papers/dou-cl-bench.md` | 论文主页面 | 中文综述 |
+| `concepts/context-learning.md` | 概念（从占位升级） | 范式定义 |
+| `concepts/domain-knowledge-reasoning.md` | Tier 1 概念 | 类别 1 |
+| `concepts/rule-system-application.md` | Tier 1 概念 | 类别 2 |
+| `concepts/procedural-task-execution.md` | Tier 1 概念 | 类别 3 |
+| `concepts/empirical-discovery-simulation.md` | Tier 1 概念 | 类别 4 |
+
+---
+
+*Generated by 小赫 | Wiki Paper Integration Workflow v2.1*