SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

3.2 KiB

Raw Blame History

title, authors, date, arxiv, venue, type, tags

title

authors

date

arxiv

venue

type

tags

When Large Multimodal Models Confront Evolving Knowledge

Kailin Jiang

Yuntao Du

Yukai Ding

Yuchen Ren

Zhi Gao

Zilong Zheng

Ning Jiang

Lei Liu

Bin Li

Qing Li

2026

2505.24449

ICLR 2026

paper

multimodal

knowledge-injection

continual-learning

benchmark

When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations

ICLR 2026 | arxiv

核心问题

大型多模态模型（LMM）经过大规模预训练后获得丰富的世界知识，但真实世界的知识持续演化（新实体、新事件），导致模型知识过时和幻觉。现有工作主要关注静态文本知识注入，忽视了动态多模态进化知识注入。

核心贡献

1. MMEVOKE 基准

mme-voke 是首个多模态进化知识注入基准，包含 9,422 个样本，覆盖 159 个细粒度子领域（News 29 + Entity 130），具有self-evolving-benchmark。

2. 双重挑战

知识适应差：现有方法（SFT、RAG、AI搜索）在 MMEVOKE 上表现不佳，最高仅 40.68% CEM
能力退化严重：知识注入后，模型在 12 个通用能力基准上平均退化 25%+

3. 知识感知增强 vs 知识无关增强

knowledge-aware-augmentation通过语义理解和真实世界图像丰富了模型对概念的感知，显著提升知识适应能力；而knowledge-agnostic-augmentation（同义词替换、图像旋转等表面操作）反而损害性能。

4. 知识保留方法

data-replay：混合旧预训练数据与新注入数据，强制模型"复习旧知"
moe-lora：为新增知识划出专用参数区，防止参数冲突
EWC / LwF 等间接约束方法几乎无效，甚至加剧退化

5. sufficient-context-paradox

即使提供了所有必要信息（Sufficient Context），LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明提供上下文还不够，模型对进化知识的推理和利用能力至关重要。

方法论

知识收集：从 CNN（News）和 Wikipedia（Entity）收集权威数据
内容总结：GPT-4o 对长文本进行摘要
VQA 生成：GPT-4o 提取 VQA 对，CLIP 聚类清洗图像
知识注入范式：SFT（Full-FT, LoRA）、MM-RAG（Text-Only/Image-Only/UniIR）、商业 AI 搜索

关键洞察

知识感知 > 知识无关：语义级增强是知识注入的关键，表面增强反而有害
直接排练 > 间接约束：Replay 和 MoELoRA 有效保留旧能力，EWC/LwF 无效
知识感知增强可部分缓解能力退化——这是论文的意外发现
知识注入 ≠ 数据记忆：模型可能只是"背诵"而非"内化"知识

概念链接

evolving-knowledge-injection — 进化知识注入任务定义
knowledge-adaptation — 知识适应度量
capability-degradation — 能力退化现象
knowledge-retention — 知识保留策略
multimodal-rag — 多模态检索增强生成