2.0 KiB
2.0 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 视觉原语 (Visual Primitives) | Multimodal AI / Visual Reasoning |
|
|
视觉原语 (Visual Primitives)
空间标记被提升为「思维的最小单位」,直接交织进多模态模型的推理链。
定义
视觉原语是 DeepSeek-AI 在「Thinking with Visual Primitives」框架中提出的概念:将计算机视觉中的标准输出格式——bounding boxes 和 points——提升为认知推理的基本单元,使之能与语言 token 同等地参与 Chain-of-Thought 过程。
两种原语
| 原语 | 表示 | 功能 | 优势 |
|---|---|---|---|
| Bounding Box | `< | box | >[[x1,y1,x2,y2],...]< |
| Point | `< | point | >[[x1,y1],...]< |
坐标归一化到 [0, 999] 的离散整数。
核心洞察
传统 MLLM 的 CoT 局限在语言空间,在需要精确空间指代的场景中(如密集计数、空间推理),语言描述「左边那个红色的球」存在天然的reference-gap。视觉原语通过直接输出归一化坐标,消除了指代歧义。
与人类认知的类比
人类在面对复杂空间任务时(如数密集物体、走迷宫)会自然使用手指作为 deictic pointer 来减少认知负荷。「视觉原语思考」框架让模型模拟这种「point-to-reason」的协同。
相关概念
- reference-gap — 视觉原语要解决的核心问题
- perception-gap — 视觉原语与之互补的另一个瓶颈
- coarse-grained-counting / fine-grained-counting — 框原语的主要应用
- maze-navigation / path-tracing — 点原语的主要应用