--- title: "自进化基准 (Self-Evolving Benchmark)" created: 2026-05-21 type: concept tags: ["benchmark", "continual-learning"] sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"] --- # 自进化基准 (Self-Evolving Benchmark) ## 定义 自进化基准是一种**可自动更新**的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。 ## MMEVOKE 的自进化设计 [[mme-voke|MMEVOKE]] 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现**每季度更新一次**。 ## 设计原则 1. **自动化优先**:收集、总结、VQA 生成、图像搜索全自动 2. **最小人工干预**:仅在质量控制环节保留人工 3. **周期性更新**:按固定节奏(季度)同步真实世界知识变化 4. **可复现**:数据构建 pipeline 可被其他研究者复现 ## 意义 传统基准是**静态快照**——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是**动态系统**——持续生长,保持对前沿的评估能力。 ## 参见 - [[mme-voke|MMEVOKE]] - [[evolving-knowledge-injection|进化知识注入]]