34 lines
1.3 KiB
Markdown
34 lines
1.3 KiB
Markdown
---
|
||
title: "多模态大语言模型 (MLLM)"
|
||
domain: "Multimodal AI"
|
||
tags: [mllm, multimodal, llm, vision]
|
||
sources: [[thinking-with-visual-primitives]]
|
||
---
|
||
|
||
# 多模态大语言模型 (MLLM)
|
||
|
||
> Multimodal Large Language Model:能同时处理文本和视觉(图像/视频)输入的大语言模型。
|
||
|
||
## 典型架构
|
||
|
||
MLLM 通常采用 LLaVA 风格的架构:
|
||
1. **Vision Encoder**(如 ViT):图像 → 视觉特征
|
||
2. **Connector/Projector**:视觉特征 → LLM 可理解的 token
|
||
3. **LLM Backbone**:接收视觉+语言 token → 生成文本响应
|
||
|
||
## 推理能力的两个瓶颈
|
||
|
||
| 瓶颈 | 层级 | 描述 |
|
||
|------|------|------|
|
||
| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足,看不清细节 |
|
||
| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 |
|
||
|
||
## 本文贡献
|
||
|
||
「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟,同时利用极致 token 压缩([[compressed-sparse-attention|压缩稀疏注意力]])在不牺牲推理深度的前提下大幅降低计算开销。
|
||
|
||
## 相关概念
|
||
|
||
- [[visual-primitives|视觉原语]] — MLLM 推理的新范式
|
||
- [[reference-gap|引用鸿沟]] — 本文解决的核心问题
|
||
- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架 |