Files
myWiki/concepts/multimodal-large-language-model.md

34 lines
1.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "多模态大语言模型 (MLLM)"
domain: "Multimodal AI"
tags: [mllm, multimodal, llm, vision]
sources: [[thinking-with-visual-primitives]]
---
# 多模态大语言模型 (MLLM)
> Multimodal Large Language Model能同时处理文本和视觉图像/视频)输入的大语言模型。
## 典型架构
MLLM 通常采用 LLaVA 风格的架构:
1. **Vision Encoder**(如 ViT图像 → 视觉特征
2. **Connector/Projector**:视觉特征 → LLM 可理解的 token
3. **LLM Backbone**:接收视觉+语言 token → 生成文本响应
## 推理能力的两个瓶颈
| 瓶颈 | 层级 | 描述 |
|------|------|------|
| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足,看不清细节 |
| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 |
## 本文贡献
「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟,同时利用极致 token 压缩([[compressed-sparse-attention|压缩稀疏注意力]])在不牺牲推理深度的前提下大幅降低计算开销。
## 相关概念
- [[visual-primitives|视觉原语]] — MLLM 推理的新范式
- [[reference-gap|引用鸿沟]] — 本文解决的核心问题
- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架