1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| LLM 评测基准体系 | 2026-05-01 | 2026-05-01 | concept |
|
|
LLM 评测基准体系 (LLM Evaluation Benchmarks)
用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。
基准分类
按能力维度
- 知识与推理:MMLU, GSM8K, MATH
- 编程能力:HumanEval, MBPP, SWE-bench
- 上下文学习:CL-bench, CL4SE, cl-bench-life
- 长上下文:Needle-in-a-Haystack, RULER, LongBench
- 多模态:MMBench, MMMU
- 对齐与安全:HarmBench, WildBench
按评估范式
- 静态基准:固定测试集,考察预训练/微调后的静态能力
- 上下文学习基准:提供动态上下文,考察信息利用能力
- Agent 基准:端到端评估,耦合工具使用、记忆、规划等多种能力
- 对抗基准:设计干扰项或对抗样本,考察鲁棒性
CL-bench 系列的特殊位置
cl-bench-life 及其前身 CL-bench 属于上下文学习基准类别,其独特之处在于:
- 干净地解耦上下文学习与其它能力(无需工具、搜索、记忆)
- 从专业领域扩展到真实生活场景
- 全人工策展确保任务质量
相关概念
- cl-bench-life — CL-bench Life 基准详情
- context-learning — 上下文学习能力
- real-life-context-learning — 真实生活上下文学习
Last Updated: 2026-05-01