1.8 KiB
1.8 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 引用鸿沟 (Reference Gap) | Multimodal AI / Visual Reasoning |
|
|
引用鸿沟 (Reference Gap)
自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。
定义
Reference Gap(引用鸿沟)由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出,指自然语言固有的指代模糊性:当模型需要在复杂空间布局中进行多步推理时,语言描述(如「左边的红色物体」)无法唯一确定视觉实体,导致推理链断裂。
与感知鸿沟的区别
| 鸿沟类型 | 问题本质 | 现有方案 | 是否已解决 |
|---|---|---|---|
| [[perception-gap | 感知鸿沟]] | 模型「看不清楚」细节 | 高分辨率裁剪、动态 patching |
| 引用鸿沟 | 模型「说不清楚」指代 | 视觉原语 | 本文提出 |
「Seeing is not reasoning」——即使完美感知,没有精确的空间指代机制,推理仍会崩溃。
典型表现
- 密集计数:语言无法逐个指代「第 N 个物体」,导致重复计数或遗漏
- 空间关系推理:「在 A 左边、B 右边的物体」在拥挤场景中高度歧义
- 拓扑推理:迷宫探索中无法用语言精确描述不规则路径的连通性
解决方案
visual-primitives:将 bounding boxes 和 points 直接嵌入思维链,使模型能够「边指边想」,将抽象的语言概念锚定在具体的图像坐标上。
相关概念
- visual-primitives — 解决引用鸿沟的核心机制
- perception-gap — 互补瓶颈
- multimodal-large-language-model — 场景