20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/multimodal-large-language-model.md
+++ b/concepts/multimodal-large-language-model.md
@@ -0,0 +1,34 @@
+---
+title: "多模态大语言模型 (MLLM)"
+domain: "Multimodal AI"
+tags: [mllm, multimodal, llm, vision]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 多模态大语言模型 (MLLM)
+
+> Multimodal Large Language Model：能同时处理文本和视觉（图像/视频）输入的大语言模型。
+
+## 典型架构
+
+MLLM 通常采用 LLaVA 风格的架构：
+1. **Vision Encoder**（如 ViT）：图像 → 视觉特征
+2. **Connector/Projector**：视觉特征 → LLM 可理解的 token
+3. **LLM Backbone**：接收视觉+语言 token → 生成文本响应
+
+## 推理能力的两个瓶颈
+
+| 瓶颈 | 层级 | 描述 |
+|------|------|------|
+| [[perception-gap|感知鸿沟]] | 视觉感知 | 分辨率不足，看不清细节 |
+| [[reference-gap|引用鸿沟]] | 语言指代 | 语言无法精确引用空间实体 |
+
+## 本文贡献
+
+「Thinking with Visual Primitives」提出通过 [[visual-primitives|视觉原语]] 弥合引用鸿沟，同时利用极致 token 压缩（[[compressed-sparse-attention|压缩稀疏注意力]]）在不牺牲推理深度的前提下大幅降低计算开销。
+
+## 相关概念
+
+- [[visual-primitives|视觉原语]] — MLLM 推理的新范式
+- [[reference-gap|引用鸿沟]] — 本文解决的核心问题
+- [[system-2-thinking|System-2 思维]] — MLLM 推理的理论框架