Files
myWiki/concepts/self-evolving-benchmark.md
2026-06-01 10:46:01 +08:00

34 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "自进化基准 (Self-Evolving Benchmark)"
created: 2026-05-21
type: concept
tags: ["benchmark", "continual-learning"]
sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"]
---
# 自进化基准 (Self-Evolving Benchmark)
## 定义
自进化基准是一种**可自动更新**的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。
## MMEVOKE 的自进化设计
[[mme-voke|MMEVOKE]] 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现**每季度更新一次**。
## 设计原则
1. **自动化优先**收集、总结、VQA 生成、图像搜索全自动
2. **最小人工干预**:仅在质量控制环节保留人工
3. **周期性更新**:按固定节奏(季度)同步真实世界知识变化
4. **可复现**:数据构建 pipeline 可被其他研究者复现
## 意义
传统基准是**静态快照**——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是**动态系统**——持续生长,保持对前沿的评估能力。
## 参见
- [[mme-voke|MMEVOKE]]
- [[evolving-knowledge-injection|进化知识注入]]