Files
myWiki/papers/hunyuan-team-cl-bench-life.md

89 lines
4.0 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "CL-Bench Life: 真实生活上下文学习基准"
created: 2026-05-01
updated: 2026-05-01
type: paper
tags: [benchmark, llm, alignment, architecture]
sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md]
---
# CL-Bench Life: Can Language Models Learn From Real-Life Context?
> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
## 核心问题
当 AI 助手从专业场景进入日常生活,它们面对的上下文不再是结构化文档,而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务?
## 方法论
CL-bench Life 是一个**全人工策展**的基准,包含:
- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics)
- 每个任务要求模型仅根据提供的上下文推理求解,无需外部检索
- 59.8% 的任务为多轮交互,更真实反映日常使用场景
### 三类上下文
| 类别 | 占比 | 典型场景 |
|------|------|---------|
| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 |
| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 |
每类下含 3 个子类,共 9 个子类,均衡分布避免评估偏差。
### 评估方式
使用 judge modelLLM-as-judge基于任务级 rubrics 自动评估。rubrics 以 ✅(必须覆盖)和 ❌(不得出现)格式列出。
## 核心发现
### 1. 真实生活上下文学习极度困难
- 最佳模型 **GPT-5.4**:仅 **19.3%** 解决率
- 十模型平均:**13.8%**
- 这意味着**即使最强模型,每 5 个日常上下文任务只能解决不到 1 个**
### 2. 不是"长上下文"问题
- 任务解决率与上下文长度**无强相关性**
- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分23.1%
- 根本困难在于**对混乱、弱结构上下文的推理**,而非上下文长度
### 3. 推理有帮助,但收益递减
- 启用推理模式普遍提升性能,尤其在行为记录类任务上
- 但边际增益随推理 token 增加而递减
- **token 效率差异巨大**Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%Seed-2.0-Pro 需 ~6.7K 达到 15%
### 4. 上下文误用是首要失败模式
- **76-84%** 的错误是"上下文误用"(读了但没读懂/没推对)
- 仅 36-45% 的错误涉及"上下文忽略"
- 格式错误和直接拒答很少(<3%
- **核心挑战**模型"看到了"上下文但**无法正确推理其中的信息**
### 5. 群聊场景的"身份混乱"
在群聊场景中模型频繁**混淆发言者身份别名指代角色关系**导致对整个对话背景的理解出现根本性错误
### 6. 最难子类:自我追踪轨迹
"行为记录 自我追踪轨迹"如健身日志是所有子类中最难的——最佳模型仅 **10.4%**
## 十模型评估结果
| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
|------|---------|---------|---------|---------|
| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% |
| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
## 相关概念
- [[cl-bench-life]] CL-bench Life 基准设计
- [[real-life-context-learning]] 真实生活上下文学习能力
- [[context-misuse]] 上下文误用读了但无法正确推理
- [[messy-context-reasoning]] 混乱上下文推理
- [[llm-evaluation-benchmarks]] LLM 评测基准体系
- [[long-context-understanding]] 长上下文理解能力