Files
myWiki/papers/thinking-with-visual-primitives.md

4.6 KiB
Raw Permalink Blame History

title, domain, tags, authors, year, source
title domain tags authors year source
Thinking with Visual Primitives — 以视觉原语思考 Multimodal AI / Visual Reasoning
visual-primitives
multimodal
chain-of-thought
spatial-reasoning
token-efficiency
DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.) 2026 https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

Thinking with Visual Primitives

"Seeing is not reasoning." — 本文的根本洞见

核心问题

当前多模态大模型(multimodal-large-language-model)的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了perception-gapPerception Gap模型在复杂空间推理中仍然频繁发生逻辑崩溃

本文指出一个更深层的瓶颈:reference-gapReference Gap——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。

方法论贡献

提出 visual-primitives 框架将空间标记bounding boxes 和 points提升为「思维的最小单位」直接交织进推理链中。

两种视觉原语

原语类型 功能 适用场景
Bounding Box (框) 精确定位对象位置和尺度 计数、空间关系推理、视觉问答
Point (点) 抽象空间引用、轨迹追踪 迷宫导航、路径追踪、拓扑推理

训练流程

Pretraining → Specialized SFT (FTwG + FTwP)
           → Specialized RL (GRPO per expert)
           → Unified RFT (rejection sampling)
           → On-Policy Distillation (KL consolidation)

关键技术:

冷启动数据设计

四大任务维度:

  1. coarse-grained-counting — 类别级目标计数(如「图中有多少只狗」)
  2. fine-grained-counting — 属性/空间约束计数(如「白色的狗有多少只」)
  3. maze-navigation — 确定迷宫可解性,输出验证路径
  4. path-tracing — 追踪纠缠曲线,识别端点

奖励模型设计

奖励类型 方法 关键创新
Format RM 规则检查 格式正确性 + 防重复框生成
Quality RM LLM 评判 一致性、矛盾检测、奖励黑客防御
计数 Accuracy RM [[exponential-decay-reward 指数衰减奖励]]
迷宫 Accuracy RM 因果探索进度 + 完整性 + 违规惩罚 密集信号、非二元
路径 Accuracy RM [[bidirectional-trajectory-evaluation 双向轨迹评估]]

架构亮点

  • 视觉 Token 极致压缩756×756 图像 → 2,916 patches → 324 visual tokens → 81 KV entries(压缩比 7056×
  • 基于 deepseek-v4-flash284B MoE13B 激活参数)+ deepseek-vit
  • compressed-sparse-attention (CSA) 将每 m 个视觉 token 压缩为一个 KV entry

关键结果

Benchmark Ours GPT-5.4 Gemini-3-Flash Claude-Sonnet-4.6
CountQA (EM/RA@10) 66.1/75.1 48.3/60.3 34.8/46.6 43.2/54.6
Pixmo-Count (EM) 89.2 77.2 82.9 68.7
SpatialMQA (ACC) 69.4 61.9 58.2 60.6
DS_Maze_Nav (ACC) 66.9 50.6 49.4 49.8
DS_Path_Trace (ACC) 56.7 46.5 41.4 30.6
Token per image ~90 ~740 ~1,100 ~870

局限与展望

  1. 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确
  2. 当前依赖显式触发词激活「视觉原语思考」机制
  3. 点原语在拓扑推理中的跨场景泛化能力有限

意义

多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。

本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。