Files
myWiki/concepts/multimodal-large-language-model.md

1.3 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
多模态大语言模型 (MLLM) Multimodal AI
mllm
multimodal
llm
vision
thinking-with-visual-primitives

多模态大语言模型 (MLLM)

Multimodal Large Language Model能同时处理文本和视觉图像/视频)输入的大语言模型。

典型架构

MLLM 通常采用 LLaVA 风格的架构:

  1. Vision Encoder(如 ViT图像 → 视觉特征
  2. Connector/Projector:视觉特征 → LLM 可理解的 token
  3. LLM Backbone:接收视觉+语言 token → 生成文本响应

推理能力的两个瓶颈

瓶颈 层级 描述
[[perception-gap 感知鸿沟]] 视觉感知
[[reference-gap 引用鸿沟]] 语言指代

本文贡献

「Thinking with Visual Primitives」提出通过 visual-primitives 弥合引用鸿沟,同时利用极致 token 压缩(compressed-sparse-attention)在不牺牲推理深度的前提下大幅降低计算开销。

相关概念