20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/hunyuan-team-cl-bench-life.md
+++ b/papers/hunyuan-team-cl-bench-life.md
@@ -0,0 +1,88 @@
+---
+title: "CL-Bench Life: 真实生活上下文学习基准"
+created: 2026-05-01
+updated: 2026-05-01
+type: paper
+tags: [benchmark, llm, alignment, architecture]
+sources: [raw/papers/hunyuan-team-cl-bench-life-2026.md]
+---
+
+# CL-Bench Life: Can Language Models Learn From Real-Life Context?
+
+> Hunyuan Team (Tencent) & Fudan University | arXiv:2604.27043 | 2026-04-29
+
+## 核心问题
+
+当 AI 助手从专业场景进入日常生活，它们面对的上下文不再是结构化文档，而是**混乱、碎片化、深植于个人与社会经验**的真实生活上下文——群聊历史、个人笔记碎片、行为日志。当前前沿模型能否从这样的上下文中可靠地学习并解决任务？
+
+## 方法论
+
+CL-bench Life 是一个**全人工策展**的基准，包含：
+- **405 个上下文-任务对** + **5,348 个验证细则** (rubrics)
+- 每个任务要求模型仅根据提供的上下文推理求解，无需外部检索
+- 59.8% 的任务为多轮交互，更真实反映日常使用场景
+
+### 三类上下文
+
+| 类别 | 占比 | 典型场景 |
+|------|------|---------|
+| **沟通与社交互动** | 33.3% | 私聊、群聊、会议纪要、论坛讨论 |
+| **碎片化信息与修订** | 33.3% | 个人笔记、RSS流、文档编辑历史 |
+| **行为记录与活动轨迹** | 33.3% | 游戏日志、数字足迹、日常健身记录 |
+
+每类下含 3 个子类，共 9 个子类，均衡分布避免评估偏差。
+
+### 评估方式
+使用 judge model（LLM-as-judge）基于任务级 rubrics 自动评估。rubrics 以 ✅（必须覆盖）和 ❌（不得出现）格式列出。
+
+## 核心发现
+
+### 1. 真实生活上下文学习极度困难
+- 最佳模型 **GPT-5.4**：仅 **19.3%** 解决率
+- 十模型平均：**13.8%**
+- 这意味着**即使最强模型，每 5 个日常上下文任务只能解决不到 1 个**
+
+### 2. 不是"长上下文"问题
+- 任务解决率与上下文长度**无强相关性**
+- GPT-5.4 在 >32K token 的最长上下文区间反而取得最高分（23.1%）
+- 根本困难在于**对混乱、弱结构上下文的推理**，而非上下文长度
+
+### 3. 推理有帮助，但收益递减
+- 启用推理模式普遍提升性能，尤其在行为记录类任务上
+- 但边际增益随推理 token 增加而递减
+- **token 效率差异巨大**：Gemini-3.1-Pro 用 ~2.7K 推理 token 达到 17%，Seed-2.0-Pro 需 ~6.7K 达到 15%
+
+### 4. 上下文误用是首要失败模式
+- **76-84%** 的错误是"上下文误用"（读了但没读懂/没推对）
+- 仅 36-45% 的错误涉及"上下文忽略"
+- 格式错误和直接拒答很少（<3%）
+- **核心挑战**：模型"看到了"上下文但**无法正确推理其中的信息**
+
+### 5. 群聊场景的"身份混乱"
+在群聊场景中，模型频繁**混淆发言者身份、别名指代、角色关系**，导致对整个对话背景的理解出现根本性错误。
+
+### 6. 最难子类：自我追踪轨迹
+"行为记录 → 自我追踪轨迹"（如健身日志）是所有子类中最难的——最佳模型仅 **10.4%**
+
+## 十模型评估结果
+
+| 模型 | 总解决率 | 通信社交 | 碎片信息 | 行为记录 |
+|------|---------|---------|---------|---------|
+| GPT-5.4 (High) | **19.3%** | 30.4% | 17.8% | 34.1% |
+| Claude Opus 4.6 (High) | 13.3% | 20.0% | 14.8% | 11.9% |
+| Gemini 3.1 Pro (High) | 15.6% | 20.0% | 14.8% | 11.1% |
+| Hy3 preview | 12.2% | 14.1% | 9.6% | 7.4% |
+| Seed 2.0 Pro (High) | 11.1% | 11.9% | 13.3% | 11.9% |
+| Kimi K2.5 (High) | 11.9% | 24.4% | 17.8% | 20.7% |
+| Qwen 3.5 Plus (High) | 15.6% | 23.3% | 17.8% | 15.6% |
+| Grok 4.20 | 13.3% | 20.7% | 15.6% | 12.6% |
+| DeepSeek V3.2 Thinking | 7.4% | 12.6% | 6.7% | 5.9% |
+| MiniMax M2.5 | 7.4% | 10.4% | 7.4% | 5.2% |
+
+## 相关概念
+- [[cl-bench-life]] — CL-bench Life 基准设计
+- [[real-life-context-learning]] — 真实生活上下文学习能力
+- [[context-misuse]] — 上下文误用：读了但无法正确推理
+- [[messy-context-reasoning]] — 混乱上下文推理
+- [[llm-evaluation-benchmarks]] — LLM 评测基准体系
+- [[long-context-understanding]] — 长上下文理解能力