20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,45 @@
---
title: LLM 评测基准体系
created: 2026-05-01
updated: 2026-05-01
type: concept
tags: [benchmark, llm]
sources: [papers/hunyuan-team-cl-bench-life.md]
---
# LLM 评测基准体系 (LLM Evaluation Benchmarks)
> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。
## 基准分类
### 按能力维度
- **知识与推理**MMLU, GSM8K, MATH
- **编程能力**HumanEval, MBPP, SWE-bench
- **上下文学习**CL-bench, CL4SE, [[cl-bench-life]]
- **长上下文**Needle-in-a-Haystack, RULER, LongBench
- **多模态**MMBench, MMMU
- **对齐与安全**HarmBench, WildBench
### 按评估范式
1. **静态基准**:固定测试集,考察预训练/微调后的静态能力
2. **上下文学习基准**:提供动态上下文,考察信息利用能力
3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力
4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性
## CL-bench 系列的特殊位置
[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于:
- 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆)
- 从专业领域扩展到**真实生活场景**
- 全人工策展确保任务质量
## 相关概念
- [[cl-bench-life]] — CL-bench Life 基准详情
- [[context-learning]] — 上下文学习能力
- [[real-life-context-learning]] — 真实生活上下文学习
---
*Last Updated: 2026-05-01*