1.3 KiB
1.3 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 多模态大语言模型 (MLLM) | Multimodal AI |
|
|
多模态大语言模型 (MLLM)
Multimodal Large Language Model:能同时处理文本和视觉(图像/视频)输入的大语言模型。
典型架构
MLLM 通常采用 LLaVA 风格的架构:
- Vision Encoder(如 ViT):图像 → 视觉特征
- Connector/Projector:视觉特征 → LLM 可理解的 token
- LLM Backbone:接收视觉+语言 token → 生成文本响应
推理能力的两个瓶颈
| 瓶颈 | 层级 | 描述 |
|---|---|---|
| [[perception-gap | 感知鸿沟]] | 视觉感知 |
| [[reference-gap | 引用鸿沟]] | 语言指代 |
本文贡献
「Thinking with Visual Primitives」提出通过 visual-primitives 弥合引用鸿沟,同时利用极致 token 压缩(compressed-sparse-attention)在不牺牲推理深度的前提下大幅降低计算开销。
相关概念
- visual-primitives — MLLM 推理的新范式
- reference-gap — 本文解决的核心问题
- system-2-thinking — MLLM 推理的理论框架