SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

4.0 KiB

Raw Permalink Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

CL-Bench Life: 真实生活上下文学习基准

2026-05-01

2026-05-01

paper

benchmark

llm

alignment

architecture

raw/papers/hunyuan-team-cl-bench-life-2026.md

CL-Bench Life: Can Language Models Learn From Real-Life Context?

Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29

核心问题

当 AI 助手从专业场景进入日常生活，它们面对的上下文不再是结构化文档，而是混乱、碎片化、深植于个人与社会经验的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务？

方法论

CL-bench Life 是一个全人工策展的基准，包含：

405 个上下文-任务对 + 5,348 个验证细则 (rubrics)
每个任务要求模型仅根据提供的上下文推理求解，无需外部检索
59.8% 的任务为多轮交互，更真实反映日常使用场景

三类上下文

类别	占比	典型场景
沟通与社交互动	33.3%	私聊、群聊、会议纪要、论坛讨论
碎片化信息与修订	33.3%	个人笔记、RSS流、文档编辑历史
行为记录与活动轨迹	33.3%	游戏日志、数字足迹、日常健身记录

每类下含 3 个子类，共 9 个子类，均衡分布避免评估偏差。

评估方式

使用 judge model（LLM-as-judge）基于任务级 rubrics 自动评估。rubrics 以 ✅（必须覆盖）和 ❌（不得出现）格式列出。

核心发现

1. 真实生活上下文学习极度困难

最佳模型 GPT-5.4：仅 19.3% 解决率
十模型平均：13.8%
这意味着即使最强模型，每 5 个日常上下文任务只能解决不到 1 个

2. 不是"长上下文"问题

任务解决率与上下文长度无强相关性
GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分（23.1%）
根本困难在于对混乱、弱结构上下文的推理，而非上下文长度

3. 推理有帮助，但收益递减

启用推理模式普遍提升性能，尤其在行为记录类任务上
但边际增益随推理 token 增加而递减
token 效率差异巨大：Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%，Seed-2.0-Pro 需 ~6.7K 达到 15%

4. 上下文误用是首要失败模式

76-84% 的错误是"上下文误用"（读了但没读懂/没推对）
仅 36-45% 的错误涉及"上下文忽略"
格式错误和直接拒答很少（<3%）
核心挑战：模型"看到了"上下文但无法正确推理其中的信息

5. 群聊场景的"身份混乱"

在群聊场景中，模型频繁混淆发言者身份、别名指代、角色关系，导致对整个对话背景的理解出现根本性错误。

6. 最难子类：自我追踪轨迹

"行为记录 → 自我追踪轨迹"（如健身日志）是所有子类中最难的——最佳模型仅 10.4%

十模型评估结果

模型	总解决率	通信社交	碎片信息	行为记录
GPT-5.4 (High)	19.3%	30.4%	17.8%	34.1%
Claude Opus 4.6 (High)	13.3%	20.0%	14.8%	11.9%
Gemini 3.1 Pro (High)	15.6%	20.0%	14.8%	11.1%
Hy3 preview	12.2%	14.1%	9.6%	7.4%
Seed 2.0 Pro (High)	11.1%	11.9%	13.3%	11.9%
Kimi K2.5 (High)	11.9%	24.4%	17.8%	20.7%
Qwen 3.5 Plus (High)	15.6%	23.3%	17.8%	15.6%
Grok 4.20	13.3%	20.7%	15.6%	12.6%
DeepSeek V3.2 Thinking	7.4%	12.6%	6.7%	5.9%
MiniMax M2.5	7.4%	10.4%	7.4%	5.2%

相关概念

cl-bench-life — CL-bench Life 基准设计
real-life-context-learning — 真实生活上下文学习能力
context-misuse — 上下文误用：读了但无法正确推理
messy-context-reasoning — 混乱上下文推理
llm-evaluation-benchmarks — LLM 评测基准体系
long-context-understanding — 长上下文理解能力