Thinking with Visual Primitives

"Seeing is not reasoning." — 本文的根本洞见

核心问题

当前多模态大模型（multimodal-large-language-model）的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了perception-gap（Perception Gap），模型在复杂空间推理中仍然频繁发生逻辑崩溃。

本文指出一个更深层的瓶颈：reference-gap（Reference Gap）——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。

方法论贡献

提出 visual-primitives 框架：将空间标记（bounding boxes 和 points）提升为「思维的最小单位」，直接交织进推理链中。

两种视觉原语

原语类型	功能	适用场景
Bounding Box (框)	精确定位对象位置和尺度	计数、空间关系推理、视觉问答
Point (点)	抽象空间引用、轨迹追踪	迷宫导航、路径追踪、拓扑推理

训练流程

Pretraining → Specialized SFT (FTwG + FTwP)
           → Specialized RL (GRPO per expert)
           → Unified RFT (rejection sampling)
           → On-Policy Distillation (KL consolidation)

关键技术：

specialized-sft：分别训练框原语专家（FTwG）和点原语专家（FTwP），避免模式冲突
specialized-rl：使用 group-relative-policy-optimization，配合三类奖励模型（格式 RM、质量 RM、准确率 RM）
unified-rft：利用专家模型 rollout → 按难度筛选 → 合并训练
on-policy-distillation：通过 KL 散度将两个专家的能力蒸馏到统一模型

冷启动数据设计

四大任务维度：

coarse-grained-counting — 类别级目标计数（如「图中有多少只狗」）
fine-grained-counting — 属性/空间约束计数（如「白色的狗有多少只」）
maze-navigation — 确定迷宫可解性，输出验证路径
path-tracing — 追踪纠缠曲线，识别端点

奖励模型设计

奖励类型	方法	关键创新
Format RM	规则检查	格式正确性 + 防重复框生成
Quality RM	LLM 评判	一致性、矛盾检测、奖励黑客防御
计数 Accuracy RM	[[exponential-decay-reward	指数衰减奖励]]
迷宫 Accuracy RM	因果探索进度 + 完整性 + 违规惩罚	密集信号、非二元
路径 Accuracy RM	[[bidirectional-trajectory-evaluation	双向轨迹评估]]

架构亮点

视觉 Token 极致压缩：756×756 图像 → 2,916 patches → 324 visual tokens → 81 KV entries（压缩比 7056×）
基于 deepseek-v4-flash（284B MoE，13B 激活参数）+ deepseek-vit
compressed-sparse-attention (CSA) 将每 m 个视觉 token 压缩为一个 KV entry

关键结果

Benchmark	Ours	GPT-5.4	Gemini-3-Flash	Claude-Sonnet-4.6
CountQA (EM/RA@10)	66.1/75.1	48.3/60.3	34.8/46.6	43.2/54.6
Pixmo-Count (EM)	89.2	77.2	82.9	68.7
SpatialMQA (ACC)	69.4	61.9	58.2	60.6
DS_Maze_Nav (ACC)	66.9	50.6	49.4	49.8
DS_Path_Trace (ACC)	56.7	46.5	41.4	30.6
Token per image	~90	~740	~1,100	~870

局限与展望

受限于输入分辨率，细粒度场景下偶有视觉原语输出不精确
当前依赖显式触发词激活「视觉原语思考」机制
点原语在拓扑推理中的跨场景泛化能力有限

意义

多模态智能的未来不在于"看到更多像素"，而在于构建语言与视觉之间精确、无歧义的引用桥梁。

本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径：不是增大视觉 token 预算，而是提升每个 token 的信息密度和指代精度。

4.6 KiB Raw Permalink Blame History Unescape Escape