3.2 KiB
3.2 KiB
title, authors, date, arxiv, venue, type, tags
| title | authors | date | arxiv | venue | type | tags | ||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| When Large Multimodal Models Confront Evolving Knowledge |
|
2026 | 2505.24449 | ICLR 2026 | paper |
|
When Large Multimodal Models Confront Evolving Knowledge: Challenges and Explorations
ICLR 2026 | arxiv
核心问题
大型多模态模型(LMM)经过大规模预训练后获得丰富的世界知识,但真实世界的知识持续演化(新实体、新事件),导致模型知识过时和幻觉。现有工作主要关注静态文本知识注入,忽视了动态多模态进化知识注入。
核心贡献
1. MMEVOKE 基准
mme-voke 是首个多模态进化知识注入基准,包含 9,422 个样本,覆盖 159 个细粒度子领域(News 29 + Entity 130),具有self-evolving-benchmark。
2. 双重挑战
- 知识适应差:现有方法(SFT、RAG、AI搜索)在 MMEVOKE 上表现不佳,最高仅 40.68% CEM
- 能力退化严重:知识注入后,模型在 12 个通用能力基准上平均退化 25%+
3. 知识感知增强 vs 知识无关增强
knowledge-aware-augmentation通过语义理解和真实世界图像丰富了模型对概念的感知,显著提升知识适应能力;而knowledge-agnostic-augmentation(同义词替换、图像旋转等表面操作)反而损害性能。
4. 知识保留方法
- data-replay:混合旧预训练数据与新注入数据,强制模型"复习旧知"
- moe-lora:为新增知识划出专用参数区,防止参数冲突
- EWC / LwF 等间接约束方法几乎无效,甚至加剧退化
5. sufficient-context-paradox
即使提供了所有必要信息(Sufficient Context),LMM 仍会产生错误答案——GPT-4.1 仅达 75% CEM。这表明提供上下文还不够,模型对进化知识的推理和利用能力至关重要。
方法论
- 知识收集:从 CNN(News)和 Wikipedia(Entity)收集权威数据
- 内容总结:GPT-4o 对长文本进行摘要
- VQA 生成:GPT-4o 提取 VQA 对,CLIP 聚类清洗图像
- 知识注入范式:SFT(Full-FT, LoRA)、MM-RAG(Text-Only/Image-Only/UniIR)、商业 AI 搜索
关键洞察
- 知识感知 > 知识无关:语义级增强是知识注入的关键,表面增强反而有害
- 直接排练 > 间接约束:Replay 和 MoELoRA 有效保留旧能力,EWC/LwF 无效
- 知识感知增强可部分缓解能力退化——这是论文的意外发现
- 知识注入 ≠ 数据记忆:模型可能只是"背诵"而非"内化"知识
概念链接
- evolving-knowledge-injection — 进化知识注入任务定义
- knowledge-adaptation — 知识适应度量
- capability-degradation — 能力退化现象
- knowledge-retention — 知识保留策略
- multimodal-rag — 多模态检索增强生成