3.1 KiB
3.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 上下文学习 (Context Learning) | 2026-05-01 | 2026-05-01 | concept |
|
|
上下文学习 (Context Learning)
由 Dou et al. (2026) 在 dou-cl-bench 中首次定义的核心能力:语言模型从任务特定上下文中学习新知识并进行推理,而非仅依赖预训练知识。与 ICL(上下文少样本学习)和长上下文理解有本质区别。
定义
上下文学习(Context Learning)是 LLM 在给定富含新信息的上下文中:
- 搜索和组织相关信息
- 学习上下文中的新知识(领域规则、操作流程、经验规律)
- 应用这些新知识推理和解决任务
核心特征:所需知识不在预训练语料中,必须在推理时从上下文习得。
与其他能力的区别
| 能力 | 上下文内容 | 核心操作 | 评估基准 |
|---|---|---|---|
| Context Learning | 新领域知识、规则系统、操作流程 | 学习 + 推理 + 应用 | CL-bench, CL-bench Life |
| ICL (In-Context Learning) | 少量示例(few-shot) | 模式匹配、类比 | 标准 NLP 基准 |
| 长上下文理解 | 长文本中的已知概念 | 检索、阅读 | Needle-in-Haystack, RULER |
| RAG | 检索到的文档片段 | 证据融合 | KILT, RGB |
CL-bench 系列的两种范式
专业领域上下文学习 (CL-bench)
由 Dou et al. (2026) 提出,聚焦结构化的专业领域上下文:
- 虚构法律体系、新编程语言、操作手册
- 4 类 → 18 子类:领域知识推理、规则系统应用、程序性执行、经验发现
- 最佳成绩:23.7% (GPT-5.1)
真实生活上下文学习 (CL-bench Life)
由 Hunyuan Team (2026) 提出,聚焦混乱的日常上下文:
- 群聊历史、碎片笔记、行为日志
- 3 类 → 9 子类:通信社交、碎片化信息、行为记录
- 最佳成绩:19.3% (GPT-5.4)
- 详见 real-life-context-learning
核心挑战
1. 上下文误用(首要失败模式)
CL-bench Life 发现 76-84% 的错误是模型"读了但没推理对"——信息提取成功但逻辑整合失败。详见 context-misuse
2. 归纳 vs 演绎推理
- 前三个类别(领域知识、规则、程序)主要是演绎:从给定规则推导
- 经验发现类别需要归纳:从数据中发现规律——这对当前模型是最难的
3. 上下文的结构化程度
从高度结构化(操作手册)到非结构化(群聊),推理难度不随上下文长度线性增长,而是取决于信息碎片化程度
相关概念
- dou-cl-bench — CL-bench 基准论文
- cl-bench-life — CL-bench Life 基准
- real-life-context-learning — 真实生活上下文学习
- context-misuse — 上下文误用
- domain-knowledge-reasoning — 领域知识推理
- rule-system-application — 规则系统应用
- empirical-discovery-simulation — 经验发现与模拟
- long-context-understanding — 长上下文理解(相关但不等价)