Files
myWiki/concepts/llm-evaluation-benchmarks.md

1.5 KiB
Raw Permalink Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
LLM 评测基准体系 2026-05-01 2026-05-01 concept
benchmark
llm
papers/hunyuan-team-cl-bench-life.md

LLM 评测基准体系 (LLM Evaluation Benchmarks)

用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域,从静态知识到上下文学习。

基准分类

按能力维度

  • 知识与推理MMLU, GSM8K, MATH
  • 编程能力HumanEval, MBPP, SWE-bench
  • 上下文学习CL-bench, CL4SE, cl-bench-life
  • 长上下文Needle-in-a-Haystack, RULER, LongBench
  • 多模态MMBench, MMMU
  • 对齐与安全HarmBench, WildBench

按评估范式

  1. 静态基准:固定测试集,考察预训练/微调后的静态能力
  2. 上下文学习基准:提供动态上下文,考察信息利用能力
  3. Agent 基准:端到端评估,耦合工具使用、记忆、规划等多种能力
  4. 对抗基准:设计干扰项或对抗样本,考察鲁棒性

CL-bench 系列的特殊位置

cl-bench-life 及其前身 CL-bench 属于上下文学习基准类别,其独特之处在于:

  • 干净地解耦上下文学习与其它能力(无需工具、搜索、记忆)
  • 从专业领域扩展到真实生活场景
  • 全人工策展确保任务质量

相关概念


Last Updated: 2026-05-01