1.2 KiB
1.2 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||
|---|---|---|---|---|---|---|---|
| 自进化基准 (Self-Evolving Benchmark) | 2026-05-21 | concept |
|
|
自进化基准 (Self-Evolving Benchmark)
定义
自进化基准是一种可自动更新的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。
MMEVOKE 的自进化设计
mme-voke 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现每季度更新一次。
设计原则
- 自动化优先:收集、总结、VQA 生成、图像搜索全自动
- 最小人工干预:仅在质量控制环节保留人工
- 周期性更新:按固定节奏(季度)同步真实世界知识变化
- 可复现:数据构建 pipeline 可被其他研究者复现
意义
传统基准是静态快照——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是动态系统——持续生长,保持对前沿的评估能力。