myWiki/concepts/self-evolving-benchmark.md

---
title: "自进化基准 (Self-Evolving Benchmark)"
created: 2026-05-21
type: concept
tags: ["benchmark", "continual-learning"]
sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"]
---

# 自进化基准 (Self-Evolving Benchmark)

## 定义

自进化基准是一种**可自动更新**的评估基准，其数据构建流程最小化人工参与，能够随真实世界知识的演化而持续扩展。

## MMEVOKE 的自进化设计

[[mme-voke|MMEVOKE]] 的数据构建流程中，仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选（平均每条 10 秒），实现**每季度更新一次**。

## 设计原则

1. **自动化优先**：收集、总结、VQA 生成、图像搜索全自动
2. **最小人工干预**：仅在质量控制环节保留人工
3. **周期性更新**：按固定节奏（季度）同步真实世界知识变化
4. **可复现**：数据构建 pipeline 可被其他研究者复现

## 意义

传统基准是**静态快照**——一旦发布就固定不变，随知识演化而逐渐过时。自进化基准是**动态系统**——持续生长，保持对前沿的评估能力。

## 参见

- [[mme-voke|MMEVOKE]]
- [[evolving-knowledge-injection|进化知识注入]]