Files
myWiki/concepts/self-evolving-benchmark.md
2026-06-01 10:46:01 +08:00

1.2 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
自进化基准 (Self-Evolving Benchmark) 2026-05-21 concept
benchmark
continual-learning
when-large-multimodal-models-confront-evolving-knowledge

自进化基准 (Self-Evolving Benchmark)

定义

自进化基准是一种可自动更新的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。

MMEVOKE 的自进化设计

mme-voke 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现每季度更新一次

设计原则

  1. 自动化优先收集、总结、VQA 生成、图像搜索全自动
  2. 最小人工干预:仅在质量控制环节保留人工
  3. 周期性更新:按固定节奏(季度)同步真实世界知识变化
  4. 可复现:数据构建 pipeline 可被其他研究者复现

意义

传统基准是静态快照——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是动态系统——持续生长,保持对前沿的评估能力。

参见