Files
myWiki/concepts/visual-primitives.md

38 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "视觉原语 (Visual Primitives)"
domain: "Multimodal AI / Visual Reasoning"
tags: [visual-primitives, multimodal, spatial-reasoning, grounding]
sources: [[thinking-with-visual-primitives]]
---
# 视觉原语 (Visual Primitives)
> 空间标记被提升为「思维的最小单位」,直接交织进多模态模型的推理链。
## 定义
视觉原语是 DeepSeek-AI 在「Thinking with Visual Primitives」框架中提出的概念将计算机视觉中的标准输出格式——**bounding boxes** 和 **points**——提升为认知推理的基本单元,使之能与语言 token 同等地参与 Chain-of-Thought 过程。
## 两种原语
| 原语 | 表示 | 功能 | 优势 |
|------|------|------|------|
| **Bounding Box** | `<|box|>[[x1,y1,x2,y2],...]<|/box|>` | 精确定位对象位置和尺度 | 确定性强、信息丰富、可泛化出点表示 |
| **Point** | `<|point|>[[x1,y1],...]<|/point|>` | 抽象空间引用、轨迹追踪 | 适用于轨迹、拓扑、连续性推理 |
坐标归一化到 [0, 999] 的离散整数。
## 核心洞察
传统 MLLM 的 CoT 局限在语言空间,在需要精确空间指代的场景中(如密集计数、空间推理),语言描述「左边那个红色的球」存在天然的[[reference-gap|引用鸿沟]]。视觉原语通过直接输出归一化坐标,消除了指代歧义。
## 与人类认知的类比
人类在面对复杂空间任务时(如数密集物体、走迷宫)会自然使用手指作为 deictic pointer 来减少认知负荷。「视觉原语思考」框架让模型模拟这种「point-to-reason」的协同。
## 相关概念
- [[reference-gap|引用鸿沟]] — 视觉原语要解决的核心问题
- [[perception-gap|感知鸿沟]] — 视觉原语与之互补的另一个瓶颈
- [[coarse-grained-counting|粗粒度计数]] / [[fine-grained-counting|细粒度计数]] — 框原语的主要应用
- [[maze-navigation|迷宫导航]] / [[path-tracing|路径追踪]] — 点原语的主要应用