Files
myWiki/concepts/cl-bench-life.md

2.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
CL-Bench Life 2026-05-01 2026-05-01 concept
benchmark
llm
alignment
papers/hunyuan-team-cl-bench-life.md

CL-Bench Life

首个全人工策展的真实生活上下文学习基准,评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。

定义

CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 real-life-context-learning 评估基准,包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入,要求模型不依赖外部检索,仅从给定上下文中推理求解。

设计原则

上下文自包含性

所有任务所需信息已整合在提供的上下文中,模型无需调用外部检索工具。这一设计干净地隔离了"上下文学习"这一单一能力,排除了搜索、工具调用、记忆检索等前期阶段的干扰。

全人工策展

每个实例context + task + rubrics均由人工编写确保了任务的真实性和评估的一致性避免自动生成的偏差。

均衡分布

三大类别各占 33.3%,每类下三个子类各占 11.1%,避免对单一上下文类型的评估偏差。

三大上下文类别

graph TD
    CL[CL-Bench Life: 405 pairs]
    CL --> A[沟通与社交互动 135]
    CL --> B[碎片化信息与修订 135]
    CL --> C[行为记录与活动轨迹 135]
    A --> A1[私密对话]
    A --> A2[群聊与会议]
    A --> A3[社区互动]
    B --> B1[个人信息碎片]
    B --> B2[公共信息碎片]
    B --> B3[创作与修订历史]
    C --> C1[游戏日志]
    C --> C2[数字足迹]
    C --> C3[自我追踪轨迹]

评估方法

Judge Model

使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics细则

  • 必须覆盖项:回复必须包含的信息或推理步骤
  • 禁止出现项:回复不得包含的错误内容(附理据说明)

每个 rubric 独立判定 pass/fail任务整体评分取决于所有 rubrics 的满足情况。

四种错误类型

评估框架识别四种非互斥的失败模式:

错误类型 含义 占比
Context-Misused 读了上下文但推理错误 76-84%
Context-Ignored 完全未使用关键上下文信息 36-45%
Format-Error 输出格式不符合要求 10-16%
Refusal 明确拒答或虚假声称信息不足 <3%

核心指标

  • 405 上下文-任务对5,348 个 rubrics
  • 59.8% 为多轮交互
  • 上下文长度5.4K 170.8K tokens平均 19.4K
  • 最佳模型 (GPT-5.4)19.3% 解决率
  • 十模型平均13.8%

相关概念


Last Updated: 2026-05-01