Files
myWiki/concepts/perception-gap.md

42 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "感知鸿沟 (Perception Gap)"
domain: "Multimodal AI / Visual Reasoning"
tags: [perception-gap, multimodal, vision]
sources: [[thinking-with-visual-primitives]]
---
# 感知鸿沟 (Perception Gap)
> MLLM 在低分辨率下无法「看清」细粒度视觉细节——这是当前多模态模型面临的第一层瓶颈。
## 定义
Perception Gap感知鸿沟指多模态大语言模型因视觉编码器分辨率限制或 token 压缩策略,导致无法捕获图像中的细粒度信息(如小文字、远距离物体、密集场景中的个体)。
## 现有应对方案
- 高分辨率裁剪high-resolution cropping
- 动态 patchingdynamic patching
- 自适应分辨率编码
- 多尺度特征融合
## 与引用鸿沟的关系
| 维度 | 感知鸿沟 | [[reference-gap|引用鸿沟]] |
|------|----------|-------------|
| 问题层 | 视觉感知层 | 语言指代层 |
| 症状 | 看不清 | 说不清 |
| 解决思路 | 更多像素/更高分辨率 | 空间标记作为思维单元 |
| 本文态度 | 已被 prior work 部分解决 | **核心贡献所在** |
> 本文指出:即使完美弥合感知鸿沟,引用鸿沟依然会导致复杂空间推理中的逻辑崩溃。
## 未来方向
DeepSeek 团队指出,将视觉原语框架与弥合感知鸿沟的方法相结合,有望实现互补收益——既能「看清」又能「指准」。
## 相关概念
- [[reference-gap|引用鸿沟]] — 更深层的瓶颈
- [[visual-primitives|视觉原语]] — 解决引用鸿沟的机制
- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 两类鸿沟的具体表现