20260514:增加新内容

This commit is contained in:
2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions

View File

@@ -0,0 +1,34 @@
---
title: "多模态大语言模型 (MLLM)"
domain: "Multimodal AI"
tags: [mllm, multimodal, llm, vision]
sources: [[thinking-with-visual-primitives]]
---
# 多模态大语言模型 (MLLM)
> Multimodal Large Language Model能同时处理文本和视觉图像/视频)输入的大语言模型。
## 典型架构
MLLM 通常采用 LLaVA 风格的架构:
1. **Vision Encoder**(如 ViT图像 → 视觉特征
2. **Connector/Projector**:视觉特征 → LLM 可理解的 token
3. **LLM Backbone**:接收视觉+语言 token → 生成文本响应
## 推理能力的两个瓶颈
| 瓶颈 | 层级 | 描述 |
|------|------|------|
| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足,看不清细节 |
| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 |
## 本文贡献
「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟,同时利用极致 token 压缩([[compressed-sparse-attention|压缩稀疏注意力]])在不牺牲推理深度的前提下大幅降低计算开销。
## 相关概念
- [[visual-primitives|视觉原语]] — MLLM 推理的新范式
- [[reference-gap|引用鸿沟]] — 本文解决的核心问题
- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架