myWiki/concepts/llm-evaluation-benchmarks.md

---
title: LLM 评测基准体系
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/hunyuan-team-cl-bench-life.md]
---

# LLM 评测基准体系 (LLM Evaluation Benchmarks)

> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域，从静态知识到上下文学习。

## 基准分类

### 按能力维度
- **知识与推理**：MMLU, GSM8K, MATH
- **编程能力**：HumanEval, MBPP, SWE-bench
- **上下文学习**：CL-bench, CL4SE, [[cl-bench-life]]
- **长上下文**：Needle-in-a-Haystack, RULER, LongBench
- **多模态**：MMBench, MMMU
- **对齐与安全**：HarmBench, WildBench

### 按评估范式
1. **静态基准**：固定测试集，考察预训练/微调后的静态能力
2. **上下文学习基准**：提供动态上下文，考察信息利用能力
3. **Agent 基准**：端到端评估，耦合工具使用、记忆、规划等多种能力
4. **对抗基准**：设计干扰项或对抗样本，考察鲁棒性

## CL-bench 系列的特殊位置

[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别，其独特之处在于：

- 干净地**解耦上下文学习与其它能力**（无需工具、搜索、记忆）
- 从专业领域扩展到**真实生活场景**
- 全人工策展确保任务质量

## 相关概念
- [[cl-bench-life]] — CL-bench Life 基准详情
- [[context-learning]] — 上下文学习能力
- [[real-life-context-learning]] — 真实生活上下文学习

---

*Last Updated: 2026-05-01*