20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/cl-bench-life.md
+++ b/concepts/cl-bench-life.md
@@ -0,0 +1,84 @@
+---
+title: CL-Bench Life
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm, alignment]
+sources: [papers/hunyuan-team-cl-bench-life.md]
+---
+
+# CL-Bench Life
+
+> 首个**全人工策展**的真实生活上下文学习基准，评估 LM 从混乱、碎片化日常上下文中学习并推理的能力。
+
+## 定义
+
+CL-bench Life 是由腾讯混元团队与复旦大学联合构建的 [[real-life-context-learning]] 评估基准，包含 405 个上下文-任务对和 5,348 个验证细则。每个任务以身临其境的真实生活上下文为输入，要求模型不依赖外部检索，仅从给定上下文中推理求解。
+
+## 设计原则
+
+### 上下文自包含性
+所有任务所需信息已整合在提供的上下文中，模型无需调用外部检索工具。这一设计**干净地隔离了"上下文学习"这一单一能力**，排除了搜索、工具调用、记忆检索等前期阶段的干扰。
+
+### 全人工策展
+每个实例（context + task + rubrics）均由人工编写，确保了任务的真实性和评估的一致性，避免自动生成的偏差。
+
+### 均衡分布
+三大类别各占 33.3%，每类下三个子类各占 11.1%，避免对单一上下文类型的评估偏差。
+
+## 三大上下文类别
+
+```mermaid
+graph TD
+    CL[CL-Bench Life: 405 pairs]
+    CL --> A[沟通与社交互动 135]
+    CL --> B[碎片化信息与修订 135]
+    CL --> C[行为记录与活动轨迹 135]
+    A --> A1[私密对话]
+    A --> A2[群聊与会议]
+    A --> A3[社区互动]
+    B --> B1[个人信息碎片]
+    B --> B2[公共信息碎片]
+    B --> B3[创作与修订历史]
+    C --> C1[游戏日志]
+    C --> C2[数字足迹]
+    C --> C3[自我追踪轨迹]
+```
+
+## 评估方法
+
+### Judge Model
+使用 LLM-as-judge 进行自动评估。每个任务配备一组 rubrics（细则）：
+
+- ✅ **必须覆盖项**：回复必须包含的信息或推理步骤
+- ❌ **禁止出现项**：回复不得包含的错误内容（附理据说明）
+
+每个 rubric 独立判定 pass/fail，任务整体评分取决于所有 rubrics 的满足情况。
+
+### 四种错误类型
+评估框架识别四种非互斥的失败模式：
+
+| 错误类型 | 含义 | 占比 |
+|---------|------|------|
+| **Context-Misused** | 读了上下文但推理错误 | **76-84%** |
+| Context-Ignored | 完全未使用关键上下文信息 | 36-45% |
+| Format-Error | 输出格式不符合要求 | 10-16% |
+| Refusal | 明确拒答或虚假声称信息不足 | <3% |
+
+## 核心指标
+
+- 405 上下文-任务对，5,348 个 rubrics
+- 59.8% 为多轮交互
+- 上下文长度：5.4K – 170.8K tokens，平均 19.4K
+- 最佳模型 (GPT-5.4)：19.3% 解决率
+- 十模型平均：13.8%
+
+## 相关概念
+- [[real-life-context-learning]] — 真实生活上下文学习
+- [[context-misuse]] — 上下文误用：核心失败模式
+- [[messy-context-reasoning]] — 混乱上下文推理
+- [[hunyuan-team-cl-bench-life]] — 论文详情
+
+---
+
+*Last Updated: 2026-05-01*