--- title: CL-Bench Life created: 2026-05-01 updated: 2026-05-01 type: concept tags: [benchmark, llm, alignment] sources: [papers/hunyuan-team-cl-bench-life.md] --- # CL-Bench Life > 首个**全人工策展**的真实生活上下文学习基准,评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。 ## 定义 CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 [[real-life-context-learning]] 评估基准,包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入,要求模型不依赖外部检索,仅从给定上下文中推理求解。 ## 设计原则 ### 上下文自包含性 所有任务所需信息已整合在提供的上下文中,模型无需调用外部检索工具。这一设计**干净地隔离了"上下文学习"这一单一能力**,排除了搜索、工具调用、记忆检索等前期阶段的干扰。 ### 全人工策展 每个实例(context + task + rubrics)均由人工编写,确保了任务的真实性和评估的一致性,避免自动生成的偏差。 ### 均衡分布 三大类别各占 33.3%,每类下三个子类各占 11.1%,避免对单一上下文类型的评估偏差。 ## 三大上下文类别 ```mermaid graph TD CL[CL-Bench Life: 405 pairs] CL --> A[沟通与社交互动 135] CL --> B[碎片化信息与修订 135] CL --> C[行为记录与活动轨迹 135] A --> A1[私密对话] A --> A2[群聊与会议] A --> A3[社区互动] B --> B1[个人信息碎片] B --> B2[公共信息碎片] B --> B3[创作与修订历史] C --> C1[游戏日志] C --> C2[数字足迹] C --> C3[自我追踪轨迹] ``` ## 评估方法 ### Judge Model 使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics(细则): - ✅ **必须覆盖项**:回复必须包含的信息或推理步骤 - ❌ **禁止出现项**:回复不得包含的错误内容(附理据说明) 每个 rubric 独立判定 pass/fail,任务整体评分取决于所有 rubrics 的满足情况。 ### 四种错误类型 评估框架识别四种非互斥的失败模式: | 错误类型 | 含义 | 占比 | |---------|------|------| | **Context-Misused** | 读了上下文但推理错误 | **76-84%** | | Context-Ignored | 完全未使用关键上下文信息 | 36-45% | | Format-Error | 输出格式不符合要求 | 10-16% | | Refusal | 明确拒答或虚假声称信息不足 | <3% | ## 核心指标 - 405 上下文-任务对,5,348 个 rubrics - 59.8% 为多轮交互 - 上下文长度:5.4K – 170.8K tokens,平均 19.4K - 最佳模型 (GPT-5.4):19.3% 解决率 - 十模型平均:13.8% ## 相关概念 - [[real-life-context-learning]] — 真实生活上下文学习 - [[context-misuse]] — 上下文误用:核心失败模式 - [[messy-context-reasoning]] — 混乱上下文推理 - [[hunyuan-team-cl-bench-life]] — 论文详情 --- *Last Updated: 2026-05-01*