20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/llm-evaluation-benchmarks.md
+++ b/concepts/llm-evaluation-benchmarks.md
@@ -0,0 +1,45 @@
+---
+title: LLM 评测基准体系
+created: 2026-05-01
+updated: 2026-05-01
+type: concept
+tags: [benchmark, llm]
+sources: [papers/hunyuan-team-cl-bench-life.md]
+---
+
+# LLM 评测基准体系 (LLM Evaluation Benchmarks)
+
+> 用于系统化评估大型语言模型各项能力的数据集、任务和指标体系。从通用能力到专项领域，从静态知识到上下文学习。
+
+## 基准分类
+
+### 按能力维度
+- **知识与推理**：MMLU, GSM8K, MATH
+- **编程能力**：HumanEval, MBPP, SWE-bench
+- **上下文学习**：CL-bench, CL4SE, [[cl-bench-life]]
+- **长上下文**：Needle-in-a-Haystack, RULER, LongBench
+- **多模态**：MMBench, MMMU
+- **对齐与安全**：HarmBench, WildBench
+
+### 按评估范式
+1. **静态基准**：固定测试集，考察预训练/微调后的静态能力
+2. **上下文学习基准**：提供动态上下文，考察信息利用能力
+3. **Agent 基准**：端到端评估，耦合工具使用、记忆、规划等多种能力
+4. **对抗基准**：设计干扰项或对抗样本，考察鲁棒性
+
+## CL-bench 系列的特殊位置
+
+[[cl-bench-life]] 及其前身 CL-bench 属于**上下文学习基准**类别，其独特之处在于：
+
+- 干净地**解耦上下文学习与其它能力**（无需工具、搜索、记忆）
+- 从专业领域扩展到**真实生活场景**
+- 全人工策展确保任务质量
+
+## 相关概念
+- [[cl-bench-life]] — CL-bench Life 基准详情
+- [[context-learning]] — 上下文学习能力
+- [[real-life-context-learning]] — 真实生活上下文学习
+
+---
+
+*Last Updated: 2026-05-01*