视觉原语 (Visual Primitives)

空间标记被提升为「思维的最小单位」，直接交织进多模态模型的推理链。

定义

视觉原语是 DeepSeek-AI 在「Thinking with Visual Primitives」框架中提出的概念：将计算机视觉中的标准输出格式——bounding boxes 和 points——提升为认知推理的基本单元，使之能与语言 token 同等地参与 Chain-of-Thought 过程。

两种原语

原语	表示	功能	优势
Bounding Box	`<	box	>[[x1,y1,x2,y2],...]<
Point	`<	point	>[[x1,y1],...]<

坐标归一化到 [0, 999] 的离散整数。

核心洞察

传统 MLLM 的 CoT 局限在语言空间，在需要精确空间指代的场景中（如密集计数、空间推理），语言描述「左边那个红色的球」存在天然的reference-gap。视觉原语通过直接输出归一化坐标，消除了指代歧义。

与人类认知的类比

人类在面对复杂空间任务时（如数密集物体、走迷宫）会自然使用手指作为 deictic pointer 来减少认知负荷。「视觉原语思考」框架让模型模拟这种「point-to-reason」的协同。

2.0 KiB Raw Blame History Unescape Escape

视觉原语 (Visual Primitives)

定义

两种原语

核心洞察

与人类认知的类比

相关概念

2.0 KiB

Raw Blame History