65 lines
3.2 KiB
Markdown
65 lines
3.2 KiB
Markdown
---
|
||
title: "When Large Multimodal Models Confront Evolving Knowledge"
|
||
authors: ["Kailin Jiang", "Yuntao Du", "Yukai Ding", "Yuchen Ren", "Zhi Gao", "Zilong Zheng", "Ning Jiang", "Lei Liu", "Bin Li", "Qing Li"]
|
||
date: 2026
|
||
arxiv: "2505.24449"
|
||
venue: "ICLR 2026"
|
||
type: paper
|
||
tags: ["multimodal", "knowledge-injection", "continual-learning", "benchmark"]
|
||
---
|
||
|
||
# When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations
|
||
|
||
> ICLR 2026 | [[arxiv|https://arxiv.org/abs/2505.24449]]
|
||
|
||
## 核心问题
|
||
|
||
大型多模态模型(LMM)经过大规模预训练后获得丰富的世界知识,但真实世界的知识持续演化(新实体、新事件),导致模型知识过时和幻觉。现有工作主要关注**静态文本知识注入**,忽视了**动态多模态进化知识注入**。
|
||
|
||
## 核心贡献
|
||
|
||
### 1. MMEVOKE 基准
|
||
|
||
[[mme-voke|MMEVOKE]] 是首个多模态进化知识注入基准,包含 **9,422 个样本**,覆盖 **159 个细粒度子领域**(News 29 + Entity 130),具有[[self-evolving-benchmark|自进化特性]]。
|
||
|
||
### 2. 双重挑战
|
||
|
||
- **知识适应差**:现有方法(SFT、RAG、AI搜索)在 MMEVOKE 上表现不佳,最高仅 40.68% CEM
|
||
- **能力退化严重**:知识注入后,模型在 12 个通用能力基准上平均退化 25%+
|
||
|
||
### 3. 知识感知增强 vs 知识无关增强
|
||
|
||
[[knowledge-aware-augmentation|知识感知增强]]通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而[[knowledge-agnostic-augmentation|知识无关增强]](同义词替换、图像旋转等表面操作)反而**损害**性能。
|
||
|
||
### 4. 知识保留方法
|
||
|
||
- [[data-replay|数据回放]]:混合旧预训练数据与新注入数据,强制模型"复习旧知"
|
||
- [[moe-lora|MoELoRA]]:为新增知识划出专用参数区,防止参数冲突
|
||
- EWC / LwF 等间接约束方法**几乎无效**,甚至加剧退化
|
||
|
||
### 5. [[sufficient-context-paradox|充分上下文悖论]]
|
||
|
||
即使提供了所有必要信息(Sufficient Context),LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明**提供上下文还不够**,模型对进化知识的**推理和利用能力**至关重要。
|
||
|
||
## 方法论
|
||
|
||
- **知识收集**:从 CNN(News)和 Wikipedia(Entity)收集权威数据
|
||
- **内容总结**:GPT-4o 对长文本进行摘要
|
||
- **VQA 生成**:GPT-4o 提取 VQA 对,CLIP 聚类清洗图像
|
||
- **知识注入范式**:SFT(Full-FT, LoRA)、MM-RAG(Text-Only/Image-Only/UniIR)、商业 AI 搜索
|
||
|
||
## 关键洞察
|
||
|
||
1. **知识感知 > 知识无关**:语义级增强是知识注入的关键,表面增强反而有害
|
||
2. **直接排练 > 间接约束**:Replay 和 MoELoRA 有效保留旧能力,EWC/LwF 无效
|
||
3. **知识感知增强可部分缓解能力退化**——这是论文的意外发现
|
||
4. **知识注入 ≠ 数据记忆**:模型可能只是"背诵"而非"内化"知识
|
||
|
||
## 概念链接
|
||
|
||
- [[evolving-knowledge-injection]] — 进化知识注入任务定义
|
||
- [[knowledge-adaptation]] — 知识适应度量
|
||
- [[capability-degradation]] — 能力退化现象
|
||
- [[knowledge-retention]] — 知识保留策略
|
||
- [[multimodal-rag]] — 多模态检索增强生成
|