Files
myWiki/concepts/llm-evaluation-benchmarks.md

46 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: LLM 评测基准体系
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/hunyuan-team-cl-bench-life.md]
---
# LLM 评测基准体系 (LLM Evaluation Benchmarks)
> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。
## 基准分类
### 按能力维度
- **知识与推理**MMLU, GSM8K, MATH
- **编程能力**HumanEval, MBPP, SWE-bench
- **上下文学习**CL-bench, CL4SE, [[cl-bench-life]]
- **长上下文**Needle-in-a-Haystack, RULER, LongBench
- **多模态**MMBench, MMMU
- **对齐与安全**HarmBench, WildBench
### 按评估范式
1. **静态基准**:固定测试集,考察预训练/微调后的静态能力
2. **上下文学习基准**:提供动态上下文,考察信息利用能力
3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力
4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性
## CL-bench 系列的特殊位置
[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于:
- 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆)
- 从专业领域扩展到**真实生活场景**
- 全人工策展确保任务质量
## 相关概念
- [[cl-bench-life]] — CL-bench Life 基准详情
- [[context-learning]] — 上下文学习能力
- [[real-life-context-learning]] — 真实生活上下文学习
---
*Last Updated: 2026-05-01*