Files
myWiki/papers/when-large-multimodal-models-confront-evolving-knowledge.md
2026-06-01 10:46:01 +08:00

3.2 KiB
Raw Blame History

title, authors, date, arxiv, venue, type, tags
title authors date arxiv venue type tags
When Large Multimodal Models Confront Evolving Knowledge
Kailin Jiang
Yuntao Du
Yukai Ding
Yuchen Ren
Zhi Gao
Zilong Zheng
Ning Jiang
Lei Liu
Bin Li
Qing Li
2026 2505.24449 ICLR 2026 paper
multimodal
knowledge-injection
continual-learning
benchmark

When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations

ICLR 2026 | arxiv

核心问题

大型多模态模型LMM经过大规模预训练后获得丰富的世界知识但真实世界的知识持续演化新实体、新事件导致模型知识过时和幻觉。现有工作主要关注静态文本知识注入,忽视了动态多模态进化知识注入

核心贡献

1. MMEVOKE 基准

mme-voke 是首个多模态进化知识注入基准,包含 9,422 个样本,覆盖 159 个细粒度子领域News 29 + Entity 130具有self-evolving-benchmark

2. 双重挑战

  • 知识适应差现有方法SFT、RAG、AI搜索在 MMEVOKE 上表现不佳,最高仅 40.68% CEM
  • 能力退化严重:知识注入后,模型在 12 个通用能力基准上平均退化 25%+

3. 知识感知增强 vs 知识无关增强

knowledge-aware-augmentation通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而knowledge-agnostic-augmentation(同义词替换、图像旋转等表面操作)反而损害性能。

4. 知识保留方法

  • data-replay:混合旧预训练数据与新注入数据,强制模型"复习旧知"
  • moe-lora:为新增知识划出专用参数区,防止参数冲突
  • EWC / LwF 等间接约束方法几乎无效,甚至加剧退化

5. sufficient-context-paradox

即使提供了所有必要信息Sufficient ContextLMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明提供上下文还不够,模型对进化知识的推理和利用能力至关重要。

方法论

  • 知识收集:从 CNNNews和 WikipediaEntity收集权威数据
  • 内容总结GPT-4o 对长文本进行摘要
  • VQA 生成GPT-4o 提取 VQA 对CLIP 聚类清洗图像
  • 知识注入范式SFTFull-FT, LoRA、MM-RAGText-Only/Image-Only/UniIR、商业 AI 搜索

关键洞察

  1. 知识感知 > 知识无关:语义级增强是知识注入的关键,表面增强反而有害
  2. 直接排练 > 间接约束Replay 和 MoELoRA 有效保留旧能力EWC/LwF 无效
  3. 知识感知增强可部分缓解能力退化——这是论文的意外发现
  4. 知识注入 ≠ 数据记忆:模型可能只是"背诵"而非"内化"知识

概念链接