SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.1 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

多模态 RAG (Multimodal RAG)

2026-05-21

concept

rag

multimodal

retrieval

when-large-multimodal-models-confront-evolving-knowledge

多模态 RAG (Multimodal RAG)

定义

多模态 RAG（MM-RAG）将rag扩展到多模态场景，通过检索外部多模态知识来增强 LMM 的知识密集型任务表现。

三种检索策略

策略	检索依据	LLaVA-v1.5 CEM	Qwen-VL-Chat CEM
Text-Only	仅文本特征	24.05%	21.79%
Image-Only	仅视觉特征	25.25%	22.31%
UniIR	多模态特征融合	40.68%	32.75%

关键发现

MM-RAG 优于 SFT（Full-FT/LoRA），但最高仅 40.68% CEM——远未达到理想水平
UniIR 融合多模态特征检索显著优于单模态检索
即使提供了充分上下文（Sufficient Context），模型仍不能完美回答——揭示了利用能力而非检索能力是瓶颈

参见