SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.3 KiB

Raw Permalink Blame History

title, domain, tags, sources

title

domain

tags

sources

多模态大语言模型 (MLLM)

Multimodal AI

mllm

multimodal

llm

vision

thinking-with-visual-primitives

多模态大语言模型 (MLLM)

Multimodal Large Language Model：能同时处理文本和视觉（图像/视频）输入的大语言模型。

典型架构

MLLM 通常采用 LLaVA 风格的架构：

Vision Encoder（如 ViT）：图像 → 视觉特征
Connector/Projector：视觉特征 → LLM 可理解的 token
LLM Backbone：接收视觉+语言 token → 生成文本响应

推理能力的两个瓶颈

瓶颈	层级	描述
[[perception-gap	感知鸿沟]]	视觉感知
[[reference-gap	引用鸿沟]]	语言指代

本文贡献

「Thinking with Visual Primitives」提出通过 visual-primitives 弥合引用鸿沟，同时利用极致 token 压缩（compressed-sparse-attention）在不牺牲推理深度的前提下大幅降低计算开销。

相关概念

visual-primitives — MLLM 推理的新范式
reference-gap — 本文解决的核心问题
system-2-thinking — MLLM 推理的理论框架