Files
myWiki/concepts/reference-gap.md

39 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "引用鸿沟 (Reference Gap)"
domain: "Multimodal AI / Visual Reasoning"
tags: [reference-gap, multimodal, spatial-reasoning, grounding]
sources: [[thinking-with-visual-primitives]]
---
# 引用鸿沟 (Reference Gap)
> 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。
## 定义
Reference Gap引用鸿沟由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出指自然语言固有的指代模糊性当模型需要在复杂空间布局中进行多步推理时语言描述如「左边的红色物体」无法唯一确定视觉实体导致推理链断裂。
## 与感知鸿沟的区别
| 鸿沟类型 | 问题本质 | 现有方案 | 是否已解决 |
|----------|----------|----------|-----------|
| [[perception-gap|感知鸿沟]] | 模型「看不清楚」细节 | 高分辨率裁剪、动态 patching | 部分解决 |
| **引用鸿沟** | 模型「说不清楚」指代 | 视觉原语 | 本文提出 |
>「Seeing is not reasoning」——即使完美感知没有精确的空间指代机制推理仍会崩溃。
## 典型表现
- **密集计数**:语言无法逐个指代「第 N 个物体」,导致重复计数或遗漏
- **空间关系推理**:「在 A 左边、B 右边的物体」在拥挤场景中高度歧义
- **拓扑推理**:迷宫探索中无法用语言精确描述不规则路径的连通性
## 解决方案
[[visual-primitives|视觉原语]]:将 bounding boxes 和 points 直接嵌入思维链,使模型能够「边指边想」,将抽象的语言概念锚定在具体的图像坐标上。
## 相关概念
- [[visual-primitives|视觉原语]] — 解决引用鸿沟的核心机制
- [[perception-gap|感知鸿沟]] — 互补瓶颈
- [[multimodal-large-language-model|多模态大语言模型]] — 场景