20260601
This commit is contained in:
33
concepts/self-evolving-benchmark.md
Normal file
33
concepts/self-evolving-benchmark.md
Normal file
@@ -0,0 +1,33 @@
|
||||
---
|
||||
title: "自进化基准 (Self-Evolving Benchmark)"
|
||||
created: 2026-05-21
|
||||
type: concept
|
||||
tags: ["benchmark", "continual-learning"]
|
||||
sources: ["[[when-large-multimodal-models-confront-evolving-knowledge]]"]
|
||||
---
|
||||
|
||||
# 自进化基准 (Self-Evolving Benchmark)
|
||||
|
||||
## 定义
|
||||
|
||||
自进化基准是一种**可自动更新**的评估基准,其数据构建流程最小化人工参与,能够随真实世界知识的演化而持续扩展。
|
||||
|
||||
## MMEVOKE 的自进化设计
|
||||
|
||||
[[mme-voke|MMEVOKE]] 的数据构建流程中,仅"人工筛选图像"步骤未自动化。通过开发前端网页加速筛选(平均每条 10 秒),实现**每季度更新一次**。
|
||||
|
||||
## 设计原则
|
||||
|
||||
1. **自动化优先**:收集、总结、VQA 生成、图像搜索全自动
|
||||
2. **最小人工干预**:仅在质量控制环节保留人工
|
||||
3. **周期性更新**:按固定节奏(季度)同步真实世界知识变化
|
||||
4. **可复现**:数据构建 pipeline 可被其他研究者复现
|
||||
|
||||
## 意义
|
||||
|
||||
传统基准是**静态快照**——一旦发布就固定不变,随知识演化而逐渐过时。自进化基准是**动态系统**——持续生长,保持对前沿的评估能力。
|
||||
|
||||
## 参见
|
||||
|
||||
- [[mme-voke|MMEVOKE]]
|
||||
- [[evolving-knowledge-injection|进化知识注入]]
|
||||
Reference in New Issue
Block a user