引用鸿沟 (Reference Gap)

自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。

定义

Reference Gap（引用鸿沟）由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出，指自然语言固有的指代模糊性：当模型需要在复杂空间布局中进行多步推理时，语言描述（如「左边的红色物体」）无法唯一确定视觉实体，导致推理链断裂。

鸿沟类型	问题本质	现有方案	是否已解决
[[perception-gap	感知鸿沟]]	模型「看不清楚」细节	高分辨率裁剪、动态 patching
引用鸿沟	模型「说不清楚」指代	视觉原语	本文提出

「Seeing is not reasoning」——即使完美感知，没有精确的空间指代机制，推理仍会崩溃。

visual-primitives：将 bounding boxes 和 points 直接嵌入思维链，使模型能够「边指边想」，将抽象的语言概念锚定在具体的图像坐标上。