myWiki/concepts/multimodal-large-language-model.md

---
title: "多模态大语言模型 (MLLM)"
domain: "Multimodal AI"
tags: [mllm, multimodal, llm, vision]
sources: [[thinking-with-visual-primitives]]
---

# 多模态大语言模型 (MLLM)

> Multimodal Large Language Model：能同时处理文本和视觉（图像/视频）输入的大语言模型。

## 典型架构

MLLM 通常采用 LLaVA 风格的架构：
1. **Vision Encoder**（如 ViT）：图像 → 视觉特征
2. **Connector/Projector**：视觉特征 → LLM 可理解的 token
3. **LLM Backbone**：接收视觉+语言 token → 生成文本响应

## 推理能力的两个瓶颈

| 瓶颈 | 层级 | 描述 |
|------|------|------|
| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足，看不清细节 |
| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 |

## 本文贡献

「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟，同时利用极致 token 压缩（[[compressed-sparse-attention|压缩稀疏注意力]]）在不牺牲推理深度的前提下大幅降低计算开销。

## 相关概念

- [[visual-primitives|视觉原语]] — MLLM 推理的新范式
- [[reference-gap|引用鸿沟]] — 本文解决的核心问题
- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架