--- title: LLM 评测基准体系 created: 2026-05-01 updated: 2026-05-01 type: concept tags: [benchmark, llm] sources: [papers/hunyuan-team-cl-bench-life.md] --- # LLM 评测基准体系 (LLM Evaluation Benchmarks) > 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。 ## 基准分类 ### 按能力维度 - **知识与推理**:MMLU, GSM8K, MATH - **编程能力**:HumanEval, MBPP, SWE-bench - **上下文学习**:CL-bench, CL4SE, [[cl-bench-life]] - **长上下文**:Needle-in-a-Haystack, RULER, LongBench - **多模态**:MMBench, MMMU - **对齐与安全**:HarmBench, WildBench ### 按评估范式 1. **静态基准**:固定测试集,考察预训练/微调后的静态能力 2. **上下文学习基准**:提供动态上下文,考察信息利用能力 3. **Agent 基准**:端到端评估,耦合工具使用、记忆、规划等多种能力 4. **对抗基准**:设计干扰项或对抗样本,考察鲁棒性 ## CL-bench 系列的特殊位置 [[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别,其独特之处在于: - 干净地**解耦上下文学习与其它能力**(无需工具、搜索、记忆) - 从专业领域扩展到**真实生活场景** - 全人工策展确保任务质量 ## 相关概念 - [[cl-bench-life]] — CL-bench Life 基准详情 - [[context-learning]] — 上下文学习能力 - [[real-life-context-learning]] — 真实生活上下文学习 --- *Last Updated: 2026-05-01*