20260514:增加新内容
This commit is contained in:
45
concepts/llm-evaluation-benchmarks.md
Normal file
45
concepts/llm-evaluation-benchmarks.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: LLM 评测基准体系
|
||||
created: 2026-05-01
|
||||
updated: 2026-05-01
|
||||
type: concept
|
||||
tags: [benchmark, llm]
|
||||
sources: [papers/hunyuan-team-cl-bench-life.md]
|
||||
---
|
||||
|
||||
# LLM 评测基准体系 (LLM Evaluation Benchmarks)
|
||||
|
||||
> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。
|
||||
|
||||
## 基准分类
|
||||
|
||||
### 按能力维度
|
||||
- **知识与推理**:MMLU, GSM8K, MATH
|
||||
- **编程能力**:HumanEval, MBPP, SWE-bench
|
||||
- **上下文学习**:CL-bench, CL4SE, [[cl-bench-life]]
|
||||
- **长上下文**:Needle-in-a-Haystack, RULER, LongBench
|
||||
- **多模态**:MMBench, MMMU
|
||||
- **对齐与安全**:HarmBench, WildBench
|
||||
|
||||
### 按评估范式
|
||||
1. **静态基准**:固定测试集,考察预训练/微调后的静态能力
|
||||
2. **上下文学习基准**:提供动态上下文,考察信息利用能力
|
||||
3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力
|
||||
4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性
|
||||
|
||||
## CL-bench 系列的特殊位置
|
||||
|
||||
[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于:
|
||||
|
||||
- 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆)
|
||||
- 从专业领域扩展到**真实生活场景**
|
||||
- 全人工策展确保任务质量
|
||||
|
||||
## 相关概念
|
||||
- [[cl-bench-life]] — CL-bench Life 基准详情
|
||||
- [[context-learning]] — 上下文学习能力
|
||||
- [[real-life-context-learning]] — 真实生活上下文学习
|
||||
|
||||
---
|
||||
|
||||
*Last Updated: 2026-05-01*
|
||||
Reference in New Issue
Block a user