This commit is contained in:
2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions

View File

@@ -0,0 +1,64 @@
---
title: "When Large Multimodal Models Confront Evolving Knowledge"
authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"]
date: 2026
arxiv: "2505.24449"
venue: "ICLR 2026"
type: paper
tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"]
---
# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations
> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]]
## 核心问题
大型多模态模型LMM经过大规模预训练后获得丰富的世界知识但真实世界的知识持续演化新实体、新事件导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**,忽视了**动态多模态进化知识注入**。
## 核心贡献
### 1. MMEVOKE 基准
[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准,包含 **9,422 个样本**,覆盖 **159 个细粒度子领域**News 29 + Entity 130具有[[self-evolving-benchmark|自进化特性]]。
### 2. 双重挑战
- **知识适应差**现有方法SFT、RAG、AI搜索在 MMEVOKE 上表现不佳,最高仅 40.68% CEM
- **能力退化严重**:知识注入后,模型在 12 个通用能力基准上平均退化 25%+
### 3. 知识感知增强 vs 知识无关增强
[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而[[knowledge-agnostic-augmentation|知识无关增强]](同义词替换、图像旋转等表面操作)反而**损害**性能。
### 4. 知识保留方法
- [[data-replay|数据回放]]:混合旧预训练数据与新注入数据,强制模型"复习旧知"
- [[moe-lora|MoELoRA]]:为新增知识划出专用参数区,防止参数冲突
- EWC / LwF 等间接约束方法**几乎无效**,甚至加剧退化
### 5. [[sufficient-context-paradox|充分上下文悖论]]
即使提供了所有必要信息Sufficient ContextLMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**,模型对进化知识的**推理和利用能力**至关重要。
## 方法论
- **知识收集**:从 CNNNews和 WikipediaEntity收集权威数据
- **内容总结**GPT-4o 对长文本进行摘要
- **VQA 生成**GPT-4o 提取 VQA 对CLIP 聚类清洗图像
- **知识注入范式**SFTFull-FT, LoRA、MM-RAGText-Only/Image-Only/UniIR、商业 AI 搜索
## 关键洞察
1. **知识感知 > 知识无关**:语义级增强是知识注入的关键,表面增强反而有害
2. **直接排练 > 间接约束**Replay 和 MoELoRA 有效保留旧能力EWC/LwF 无效
3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现
4. **知识注入 ≠ 数据记忆**:模型可能只是"背诵"而非"内化"知识
## 概念链接
- [[evolving-knowledge-injection]] — 进化知识注入任务定义
- [[knowledge-adaptation]] — 知识适应度量
- [[capability-degradation]] — 能力退化现象
- [[knowledge-retention]] — 知识保留策略
- [[multimodal-rag]] — 多模态检索增强生成