Files
myWiki/concepts/multimodal-rag.md
2026-06-01 10:46:01 +08:00

1.1 KiB
Raw Blame History

title, created, type, tags, sources
title created type tags sources
多模态 RAG (Multimodal RAG) 2026-05-21 concept
rag
multimodal
retrieval
when-large-multimodal-models-confront-evolving-knowledge

多模态 RAG (Multimodal RAG)

定义

多模态 RAGMM-RAGrag扩展到多模态场景,通过检索外部多模态知识来增强 LMM 的知识密集型任务表现。

三种检索策略

策略 检索依据 LLaVA-v1.5 CEM Qwen-VL-Chat CEM
Text-Only 仅文本特征 24.05% 21.79%
Image-Only 仅视觉特征 25.25% 22.31%
UniIR 多模态特征融合 40.68% 32.75%

关键发现

  1. MM-RAG 优于 SFTFull-FT/LoRA但最高仅 40.68% CEM——远未达到理想水平
  2. UniIR 融合多模态特征检索显著优于单模态检索
  3. 即使提供了充分上下文Sufficient Context模型仍不能完美回答——揭示了利用能力而非检索能力是瓶颈

参见