Files
myWiki/concepts/perception-gap.md

1.6 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
感知鸿沟 (Perception Gap) Multimodal AI / Visual Reasoning
perception-gap
multimodal
vision
thinking-with-visual-primitives

感知鸿沟 (Perception Gap)

MLLM 在低分辨率下无法「看清」细粒度视觉细节——这是当前多模态模型面临的第一层瓶颈。

定义

Perception Gap感知鸿沟指多模态大语言模型因视觉编码器分辨率限制或 token 压缩策略,导致无法捕获图像中的细粒度信息(如小文字、远距离物体、密集场景中的个体)。

现有应对方案

  • 高分辨率裁剪high-resolution cropping
  • 动态 patchingdynamic patching
  • 自适应分辨率编码
  • 多尺度特征融合

与引用鸿沟的关系

| 维度 | 感知鸿沟 | reference-gap | |------|----------|-------------| | 问题层 | 视觉感知层 | 语言指代层 | | 症状 | 看不清 | 说不清 | | 解决思路 | 更多像素/更高分辨率 | 空间标记作为思维单元 | | 本文态度 | 已被 prior work 部分解决 | 核心贡献所在 |

本文指出:即使完美弥合感知鸿沟,引用鸿沟依然会导致复杂空间推理中的逻辑崩溃。

未来方向

DeepSeek 团队指出,将视觉原语框架与弥合感知鸿沟的方法相结合,有望实现互补收益——既能「看清」又能「指准」。

相关概念