Files
myWiki/concepts/context-learning.md

3.1 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
上下文学习 (Context Learning) 2026-05-01 2026-05-01 concept
llm
benchmark
papers/dou-cl-bench.md
papers/hunyuan-team-cl-bench-life.md

上下文学习 (Context Learning)

由 Dou et al. (2026) 在 dou-cl-bench 中首次定义的核心能力:语言模型从任务特定上下文中学习新知识并进行推理,而非仅依赖预训练知识。与 ICL上下文少样本学习和长上下文理解有本质区别。

定义

上下文学习Context Learning是 LLM 在给定富含新信息的上下文中:

  1. 搜索和组织相关信息
  2. 学习上下文中的新知识(领域规则、操作流程、经验规律)
  3. 应用这些新知识推理和解决任务

核心特征:所需知识不在预训练语料中,必须在推理时从上下文习得。

与其他能力的区别

能力 上下文内容 核心操作 评估基准
Context Learning 新领域知识、规则系统、操作流程 学习 + 推理 + 应用 CL-bench, CL-bench Life
ICL (In-Context Learning) 少量示例few-shot 模式匹配、类比 标准 NLP 基准
长上下文理解 长文本中的已知概念 检索、阅读 Needle-in-Haystack, RULER
RAG 检索到的文档片段 证据融合 KILT, RGB

CL-bench 系列的两种范式

专业领域上下文学习 (CL-bench)

由 Dou et al. (2026) 提出,聚焦结构化的专业领域上下文

  • 虚构法律体系、新编程语言、操作手册
  • 4 类 → 18 子类:领域知识推理、规则系统应用、程序性执行、经验发现
  • 最佳成绩23.7% (GPT-5.1)

真实生活上下文学习 (CL-bench Life)

由 Hunyuan Team (2026) 提出,聚焦混乱的日常上下文

  • 群聊历史、碎片笔记、行为日志
  • 3 类 → 9 子类:通信社交、碎片化信息、行为记录
  • 最佳成绩19.3% (GPT-5.4)
  • 详见 real-life-context-learning

核心挑战

1. 上下文误用(首要失败模式)

CL-bench Life 发现 76-84% 的错误是模型"读了但没推理对"——信息提取成功但逻辑整合失败。详见 context-misuse

2. 归纳 vs 演绎推理

  • 前三个类别(领域知识、规则、程序)主要是演绎:从给定规则推导
  • 经验发现类别需要归纳:从数据中发现规律——这对当前模型是最难的

3. 上下文的结构化程度

从高度结构化(操作手册)到非结构化(群聊),推理难度不随上下文长度线性增长,而是取决于信息碎片化程度

相关概念