Files
myWiki/concepts/cl-bench-life.md

85 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: CL-Bench Life
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm, alignment]
sources: [papers/hunyuan-team-cl-bench-life.md]
---
# CL-Bench Life
> 首个**全人工策展**的真实生活上下文学习基准,评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。
## 定义
CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 [[real-life-context-learning]] 评估基准,包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入,要求模型不依赖外部检索,仅从给定上下文中推理求解。
## 设计原则
### 上下文自包含性
所有任务所需信息已整合在提供的上下文中,模型无需调用外部检索工具。这一设计**干净地隔离了"上下文学习"这一单一能力**,排除了搜索、工具调用、记忆检索等前期阶段的干扰。
### 全人工策展
每个实例context + task + rubrics均由人工编写确保了任务的真实性和评估的一致性避免自动生成的偏差。
### 均衡分布
三大类别各占 33.3%,每类下三个子类各占 11.1%,避免对单一上下文类型的评估偏差。
## 三大上下文类别
```mermaid
graph TD
CL[CL-Bench Life: 405 pairs]
CL --> A[沟通与社交互动 135]
CL --> B[碎片化信息与修订 135]
CL --> C[行为记录与活动轨迹 135]
A --> A1[私密对话]
A --> A2[群聊与会议]
A --> A3[社区互动]
B --> B1[个人信息碎片]
B --> B2[公共信息碎片]
B --> B3[创作与修订历史]
C --> C1[游戏日志]
C --> C2[数字足迹]
C --> C3[自我追踪轨迹]
```
## 评估方法
### Judge Model
使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics细则
-**必须覆盖项**:回复必须包含的信息或推理步骤
-**禁止出现项**:回复不得包含的错误内容(附理据说明)
每个 rubric 独立判定 pass/fail任务整体评分取决于所有 rubrics 的满足情况。
### 四种错误类型
评估框架识别四种非互斥的失败模式:
| 错误类型 | 含义 | 占比 |
|---------|------|------|
| **Context-Misused** | 读了上下文但推理错误 | **76-84%** |
| Context-Ignored | 完全未使用关键上下文信息 | 36-45% |
| Format-Error | 输出格式不符合要求 | 10-16% |
| Refusal | 明确拒答或虚假声称信息不足 | <3% |
## 核心指标
- 405 上下文-任务对5,348 rubrics
- 59.8% 为多轮交互
- 上下文长度5.4K 170.8K tokens平均 19.4K
- 最佳模型 (GPT-5.4)19.3% 解决率
- 十模型平均13.8%
## 相关概念
- [[real-life-context-learning]] 真实生活上下文学习
- [[context-misuse]] 上下文误用核心失败模式
- [[messy-context-reasoning]] 混乱上下文推理
- [[hunyuan-team-cl-bench-life]] 论文详情
---
*Last Updated: 2026-05-01*