46 lines
1.5 KiB
Markdown
46 lines
1.5 KiB
Markdown
---
|
||
title: LLM 评测基准体系
|
||
created: 2026-05-01
|
||
updated: 2026-05-01
|
||
type: concept
|
||
tags: [benchmark, llm]
|
||
sources: [papers/hunyuan-team-cl-bench-life.md]
|
||
---
|
||
|
||
# LLM 评测基准体系 (LLM Evaluation Benchmarks)
|
||
|
||
> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。
|
||
|
||
## 基准分类
|
||
|
||
### 按能力维度
|
||
- **知识与推理**:MMLU, GSM8K, MATH
|
||
- **编程能力**:HumanEval, MBPP, SWE-bench
|
||
- **上下文学习**:CL-bench, CL4SE, [[cl-bench-life]]
|
||
- **长上下文**:Needle-in-a-Haystack, RULER, LongBench
|
||
- **多模态**:MMBench, MMMU
|
||
- **对齐与安全**:HarmBench, WildBench
|
||
|
||
### 按评估范式
|
||
1. **静态基准**:固定测试集,考察预训练/微调后的静态能力
|
||
2. **上下文学习基准**:提供动态上下文,考察信息利用能力
|
||
3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力
|
||
4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性
|
||
|
||
## CL-bench 系列的特殊位置
|
||
|
||
[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于:
|
||
|
||
- 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆)
|
||
- 从专业领域扩展到**真实生活场景**
|
||
- 全人工策展确保任务质量
|
||
|
||
## 相关概念
|
||
- [[cl-bench-life]] — CL-bench Life 基准详情
|
||
- [[context-learning]] — 上下文学习能力
|
||
- [[real-life-context-learning]] — 真实生活上下文学习
|
||
|
||
---
|
||
|
||
*Last Updated: 2026-05-01*
|