20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/reference-gap.md
+++ b/concepts/reference-gap.md
@@ -0,0 +1,39 @@
+---
+title: "引用鸿沟 (Reference Gap)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [reference-gap, multimodal, spatial-reasoning, grounding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 引用鸿沟 (Reference Gap)
+
+> 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代——这是导致 MLLM 空间推理逻辑崩溃的根本瓶颈。
+
+## 定义
+
+Reference Gap（引用鸿沟）由 DeepSeek-AI 在「Thinking with Visual Primitives」中提出，指自然语言固有的指代模糊性：当模型需要在复杂空间布局中进行多步推理时，语言描述（如「左边的红色物体」）无法唯一确定视觉实体，导致推理链断裂。
+
+## 与感知鸿沟的区别
+
+| 鸿沟类型 | 问题本质 | 现有方案 | 是否已解决 |
+|----------|----------|----------|-----------|
+| [[perception-gap|感知鸿沟]] | 模型「看不清楚」细节 | 高分辨率裁剪、动态 patching | 部分解决 |
+| **引用鸿沟** | 模型「说不清楚」指代 | 视觉原语 | 本文提出 |
+
+>「Seeing is not reasoning」——即使完美感知，没有精确的空间指代机制，推理仍会崩溃。
+
+## 典型表现
+
+- **密集计数**：语言无法逐个指代「第 N 个物体」，导致重复计数或遗漏
+- **空间关系推理**：「在 A 左边、B 右边的物体」在拥挤场景中高度歧义
+- **拓扑推理**：迷宫探索中无法用语言精确描述不规则路径的连通性
+
+## 解决方案
+
+[[visual-primitives|视觉原语]]：将 bounding boxes 和 points 直接嵌入思维链，使模型能够「边指边想」，将抽象的语言概念锚定在具体的图像坐标上。
+
+## 相关概念
+
+- [[visual-primitives|视觉原语]] — 解决引用鸿沟的核心机制
+- [[perception-gap|感知鸿沟]] — 互补瓶颈
+- [[multimodal-large-language-model|多模态大语言模型]] — 场景