myWiki/papers/when-large-multimodal-models-confront-evolving-knowledge.md

---
title: "When Large Multimodal Models Confront Evolving Knowledge"
authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"]
date: 2026
arxiv: "2505.24449"
venue: "ICLR 2026"
type: paper
tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"]
---

# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations

> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]]

## 核心问题

大型多模态模型（LMM）经过大规模预训练后获得丰富的世界知识，但真实世界的知识持续演化（新实体、新事件），导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**，忽视了**动态多模态进化知识注入**。

## 核心贡献

### 1. MMEVOKE 基准

[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准，包含 **9,422 个样本**，覆盖 **159 个细粒度子领域**（News 29 + Entity 130），具有[[self-evolving-benchmark|自进化特性]]。

### 2. 双重挑战

- **知识适应差**：现有方法（SFT、RAG、AI搜索）在 MMEVOKE 上表现不佳，最高仅 40.68% CEM
- **能力退化严重**：知识注入后，模型在 12 个通用能力基准上平均退化 25%+

### 3. 知识感知增强 vs 知识无关增强

[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知，显著提升知识适应能力；而[[knowledge-agnostic-augmentation|知识无关增强]]（同义词替换、图像旋转等表面操作）反而**损害**性能。

### 4. 知识保留方法

- [[data-replay|数据回放]]：混合旧预训练数据与新注入数据，强制模型"复习旧知"
- [[moe-lora|MoELoRA]]：为新增知识划出专用参数区，防止参数冲突
- EWC / LwF 等间接约束方法**几乎无效**，甚至加剧退化

### 5. [[sufficient-context-paradox|充分上下文悖论]]

即使提供了所有必要信息（Sufficient Context），LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**，模型对进化知识的**推理和利用能力**至关重要。

## 方法论

- **知识收集**：从 CNN（News）和 Wikipedia（Entity）收集权威数据
- **内容总结**：GPT-4o 对长文本进行摘要
- **VQA 生成**：GPT-4o 提取 VQA 对，CLIP 聚类清洗图像
- **知识注入范式**：SFT（Full-FT, LoRA）、MM-RAG（Text-Only/Image-Only/UniIR）、商业 AI 搜索

## 关键洞察

1. **知识感知 > 知识无关**：语义级增强是知识注入的关键，表面增强反而有害
2. **直接排练 > 间接约束**：Replay 和 MoELoRA 有效保留旧能力，EWC/LwF 无效
3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现
4. **知识注入 ≠ 数据记忆**：模型可能只是"背诵"而非"内化"知识

## 概念链接

- [[evolving-knowledge-injection]] — 进化知识注入任务定义
- [[knowledge-adaptation]] — 知识适应度量
- [[capability-degradation]] — 能力退化现象
- [[knowledge-retention]] — 知识保留策略
- [[multimodal-rag]] — 多模态检索增强生成