38 lines
2.0 KiB
Markdown
38 lines
2.0 KiB
Markdown
---
|
||
title: "视觉原语 (Visual Primitives)"
|
||
domain: "Multimodal AI / Visual Reasoning"
|
||
tags: [visual-primitives, multimodal, spatial-reasoning, grounding]
|
||
sources: [[thinking-with-visual-primitives]]
|
||
---
|
||
|
||
# 视觉原语 (Visual Primitives)
|
||
|
||
> 空间标记被提升为「思维的最小单位」,直接交织进多模态模型的推理链。
|
||
|
||
## 定义
|
||
|
||
视觉原语是 DeepSeek-AI 在「Thinking with Visual Primitives」框架中提出的概念:将计算机视觉中的标准输出格式——**bounding boxes** 和 **points**——提升为认知推理的基本单元,使之能与语言 token 同等地参与 Chain-of-Thought 过程。
|
||
|
||
## 两种原语
|
||
|
||
| 原语 | 表示 | 功能 | 优势 |
|
||
|------|------|------|------|
|
||
| **Bounding Box** | `<|box|>[[x1,y1,x2,y2],...]<|/box|>` | 精确定位对象位置和尺度 | 确定性强、信息丰富、可泛化出点表示 |
|
||
| **Point** | `<|point|>[[x1,y1],...]<|/point|>` | 抽象空间引用、轨迹追踪 | 适用于轨迹、拓扑、连续性推理 |
|
||
|
||
坐标归一化到 [0, 999] 的离散整数。
|
||
|
||
## 核心洞察
|
||
|
||
传统 MLLM 的 CoT 局限在语言空间,在需要精确空间指代的场景中(如密集计数、空间推理),语言描述「左边那个红色的球」存在天然的[[reference-gap|引用鸿沟]]。视觉原语通过直接输出归一化坐标,消除了指代歧义。
|
||
|
||
## 与人类认知的类比
|
||
|
||
人类在面对复杂空间任务时(如数密集物体、走迷宫)会自然使用手指作为 deictic pointer 来减少认知负荷。「视觉原语思考」框架让模型模拟这种「point-to-reason」的协同。
|
||
|
||
## 相关概念
|
||
|
||
- [[reference-gap|引用鸿沟]] — 视觉原语要解决的核心问题
|
||
- [[perception-gap|感知鸿沟]] — 视觉原语与之互补的另一个瓶颈
|
||
- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 框原语的主要应用
|
||
- [[maze-navigation|迷宫导航]] / [[path-tracing|路径追踪]] — 点原语的主要应用 |