20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/perception-gap.md
+++ b/concepts/perception-gap.md
@@ -0,0 +1,42 @@
+---
+title: "感知鸿沟 (Perception Gap)"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [perception-gap, multimodal, vision]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 感知鸿沟 (Perception Gap)
+
+> MLLM 在低分辨率下无法「看清」细粒度视觉细节——这是当前多模态模型面临的第一层瓶颈。
+
+## 定义
+
+Perception Gap（感知鸿沟）指多模态大语言模型因视觉编码器分辨率限制或 token 压缩策略，导致无法捕获图像中的细粒度信息（如小文字、远距离物体、密集场景中的个体）。
+
+## 现有应对方案
+
+- 高分辨率裁剪（high-resolution cropping）
+- 动态 patching（dynamic patching）
+- 自适应分辨率编码
+- 多尺度特征融合
+
+## 与引用鸿沟的关系
+
+| 维度 | 感知鸿沟 | [[reference-gap|引用鸿沟]] |
+|------|----------|-------------|
+| 问题层 | 视觉感知层 | 语言指代层 |
+| 症状 | 看不清 | 说不清 |
+| 解决思路 | 更多像素/更高分辨率 | 空间标记作为思维单元 |
+| 本文态度 | 已被 prior work 部分解决 | **核心贡献所在** |
+
+> 本文指出：即使完美弥合感知鸿沟，引用鸿沟依然会导致复杂空间推理中的逻辑崩溃。
+
+## 未来方向
+
+DeepSeek 团队指出，将视觉原语框架与弥合感知鸿沟的方法相结合，有望实现互补收益——既能「看清」又能「指准」。
+
+## 相关概念
+
+- [[reference-gap|引用鸿沟]] — 更深层的瓶颈
+- [[visual-primitives|视觉原语]] — 解决引用鸿沟的机制
+- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 两类鸿沟的具体表现