--- title: "多模态大语言模型 (MLLM)" domain: "Multimodal AI" tags: [mllm, multimodal, llm, vision] sources: [[thinking-with-visual-primitives]] --- # 多模态大语言模型 (MLLM) > Multimodal Large Language Model:能同时处理文本和视觉(图像/视频)输入的大语言模型。 ## 典型架构 MLLM 通常采用 LLaVA 风格的架构: 1. **Vision Encoder**(如 ViT):图像 → 视觉特征 2. **Connector/Projector**:视觉特征 → LLM 可理解的 token 3. **LLM Backbone**:接收视觉+语言 token → 生成文本响应 ## 推理能力的两个瓶颈 | 瓶颈 | 层级 | 描述 | |------|------|------| | [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足,看不清细节 | | [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 | ## 本文贡献 「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟,同时利用极致 token 压缩([[compressed-sparse-attention|压缩稀疏注意力]])在不牺牲推理深度的前提下大幅降低计算开销。 ## 相关概念 - [[visual-primitives|视觉原语]] — MLLM 推理的新范式 - [[reference-gap|引用鸿沟]] — 本文解决的核心问题 - [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架