Files
myWiki/concepts/reference-gap.md

1.8 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
引用鸿沟 (Reference Gap) Multimodal AI / Visual Reasoning
reference-gap
multimodal
spatial-reasoning
grounding
thinking-with-visual-primitives

引用鸿沟 (Reference Gap)

自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。

定义

Reference Gap引用鸿沟由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出指自然语言固有的指代模糊性当模型需要在复杂空间布局中进行多步推理时语言描述如「左边的红色物体」无法唯一确定视觉实体导致推理链断裂。

与感知鸿沟的区别

鸿沟类型 问题本质 现有方案 是否已解决
[[perception-gap 感知鸿沟]] 模型「看不清楚」细节 高分辨率裁剪、动态 patching
引用鸿沟 模型「说不清楚」指代 视觉原语 本文提出

「Seeing is not reasoning」——即使完美感知没有精确的空间指代机制推理仍会崩溃。

典型表现

  • 密集计数:语言无法逐个指代「第 N 个物体」,导致重复计数或遗漏
  • 空间关系推理:「在 A 左边、B 右边的物体」在拥挤场景中高度歧义
  • 拓扑推理:迷宫探索中无法用语言精确描述不规则路径的连通性

解决方案

visual-primitives:将 bounding boxes 和 points 直接嵌入思维链,使模型能够「边指边想」,将抽象的语言概念锚定在具体的图像坐标上。

相关概念