1.1 KiB
1.1 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|
| 多模态 RAG (Multimodal RAG) | 2026-05-21 | concept |
|
|
多模态 RAG (Multimodal RAG)
定义
多模态 RAG(MM-RAG)将rag扩展到多模态场景,通过检索外部多模态知识来增强 LMM 的知识密集型任务表现。
三种检索策略
| 策略 | 检索依据 | LLaVA-v1.5 CEM | Qwen-VL-Chat CEM |
|---|---|---|---|
| Text-Only | 仅文本特征 | 24.05% | 21.79% |
| Image-Only | 仅视觉特征 | 25.25% | 22.31% |
| UniIR | 多模态特征融合 | 40.68% | 32.75% |
关键发现
- MM-RAG 优于 SFT(Full-FT/LoRA),但最高仅 40.68% CEM——远未达到理想水平
- UniIR 融合多模态特征检索显著优于单模态检索
- 即使提供了充分上下文(Sufficient Context),模型仍不能完美回答——揭示了利用能力而非检索能力是瓶颈