4.0 KiB
4.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| CL-Bench Life: 真实生活上下文学习基准 | 2026-05-01 | 2026-05-01 | paper |
|
|
CL-Bench Life: Can Language Models Learn From Real-Life Context?
Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
核心问题
当 AI 助手从专业场景进入日常生活,它们面对的上下文不再是结构化文档,而是混乱、碎片化、深植于个人与社会经验的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务?
方法论
CL-bench Life 是一个全人工策展的基准,包含:
- 405 个上下文-任务对 + 5,348 个验证细则 (rubrics)
- 每个任务要求模型仅根据提供的上下文推理求解,无需外部检索
- 59.8% 的任务为多轮交互,更真实反映日常使用场景
三类上下文
| 类别 | 占比 | 典型场景 |
|---|---|---|
| 沟通与社交互动 | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
| 碎片化信息与修订 | 33.3% | 个人笔记、RSS流、文档编辑历史 |
| 行为记录与活动轨迹 | 33.3% | 游戏日志、数字足迹、日常健身记录 |
每类下含 3 个子类,共 9 个子类,均衡分布避免评估偏差。
评估方式
使用 judge model(LLM-as-judge)基于任务级 rubrics 自动评估。rubrics 以 ✅(必须覆盖)和 ❌(不得出现)格式列出。
核心发现
1. 真实生活上下文学习极度困难
- 最佳模型 GPT-5.4:仅 19.3% 解决率
- 十模型平均:13.8%
- 这意味着即使最强模型,每 5 个日常上下文任务只能解决不到 1 个
2. 不是"长上下文"问题
- 任务解决率与上下文长度无强相关性
- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分(23.1%)
- 根本困难在于对混乱、弱结构上下文的推理,而非上下文长度
3. 推理有帮助,但收益递减
- 启用推理模式普遍提升性能,尤其在行为记录类任务上
- 但边际增益随推理 token 增加而递减
- token 效率差异巨大:Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%,Seed-2.0-Pro 需 ~6.7K 达到 15%
4. 上下文误用是首要失败模式
- 76-84% 的错误是"上下文误用"(读了但没读懂/没推对)
- 仅 36-45% 的错误涉及"上下文忽略"
- 格式错误和直接拒答很少(<3%)
- 核心挑战:模型"看到了"上下文但无法正确推理其中的信息
5. 群聊场景的"身份混乱"
在群聊场景中,模型频繁混淆发言者身份、别名指代、角色关系,导致对整个对话背景的理解出现根本性错误。
6. 最难子类:自我追踪轨迹
"行为记录 → 自我追踪轨迹"(如健身日志)是所有子类中最难的——最佳模型仅 10.4%
十模型评估结果
| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
|---|---|---|---|---|
| GPT-5.4 (High) | 19.3% | 30.4% | 17.8% | 34.1% |
| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
相关概念
- cl-bench-life — CL-bench Life 基准设计
- real-life-context-learning — 真实生活上下文学习能力
- context-misuse — 上下文误用:读了但无法正确推理
- messy-context-reasoning — 混乱上下文推理
- llm-evaluation-benchmarks — LLM 评测基准体系
- long-context-understanding — 长上下文理解能力