SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

LLM 评测基准体系

2026-05-01

2026-05-01

concept

benchmark

llm

papers/hunyuan-team-cl-bench-life.md

LLM 评测基准体系 (LLM Evaluation Benchmarks)

用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域，从静态知识到上下文学习。

基准分类

按能力维度

知识与推理：MMLU, GSM8K, MATH
编程能力：HumanEval, MBPP, SWE-bench
上下文学习：CL-bench, CL4SE, cl-bench-life
长上下文：Needle-in-a-Haystack, RULER, LongBench
多模态：MMBench, MMMU
对齐与安全：HarmBench, WildBench

按评估范式

静态基准：固定测试集，考察预训练/微调后的静态能力
上下文学习基准：提供动态上下文，考察信息利用能力
Agent 基准：端到端评估，耦合工具使用、记忆、规划等多种能力
对抗基准：设计干扰项或对抗样本，考察鲁棒性

CL-bench 系列的特殊位置

cl-bench-life 及其前身 CL-bench 属于上下文学习基准类别，其独特之处在于：

干净地解耦上下文学习与其它能力（无需工具、搜索、记忆）
从专业领域扩展到真实生活场景
全人工策展确保任务质量

相关概念

cl-bench-life — CL-bench Life 基准详情
context-learning — 上下文学习能力
real-life-context-learning — 真实生活上下文学习

Last Updated: 2026-05-01