4.6 KiB
4.6 KiB
title, domain, tags, authors, year, source
| title | domain | tags | authors | year | source | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Thinking with Visual Primitives — 以视觉原语思考 | Multimodal AI / Visual Reasoning |
|
DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.) | 2026 | https://github.com/deepseek-ai/Thinking-with-Visual-Primitives |
Thinking with Visual Primitives
"Seeing is not reasoning." — 本文的根本洞见
核心问题
当前多模态大模型(multimodal-large-language-model)的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了perception-gap(Perception Gap),模型在复杂空间推理中仍然频繁发生逻辑崩溃。
本文指出一个更深层的瓶颈:reference-gap(Reference Gap)——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
方法论贡献
提出 visual-primitives 框架:将空间标记(bounding boxes 和 points)提升为「思维的最小单位」,直接交织进推理链中。
两种视觉原语
| 原语类型 | 功能 | 适用场景 |
|---|---|---|
| Bounding Box (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
| Point (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
训练流程
Pretraining → Specialized SFT (FTwG + FTwP)
→ Specialized RL (GRPO per expert)
→ Unified RFT (rejection sampling)
→ On-Policy Distillation (KL consolidation)
关键技术:
- specialized-sft:分别训练框原语专家(FTwG)和点原语专家(FTwP),避免模式冲突
- specialized-rl:使用 group-relative-policy-optimization,配合三类奖励模型(格式 RM、质量 RM、准确率 RM)
- unified-rft:利用专家模型 rollout → 按难度筛选 → 合并训练
- on-policy-distillation:通过 KL 散度将两个专家的能力蒸馏到统一模型
冷启动数据设计
四大任务维度:
- coarse-grained-counting — 类别级目标计数(如「图中有多少只狗」)
- fine-grained-counting — 属性/空间约束计数(如「白色的狗有多少只」)
- maze-navigation — 确定迷宫可解性,输出验证路径
- path-tracing — 追踪纠缠曲线,识别端点
奖励模型设计
| 奖励类型 | 方法 | 关键创新 |
|---|---|---|
| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
| 计数 Accuracy RM | [[exponential-decay-reward | 指数衰减奖励]] |
| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation | 双向轨迹评估]] |
架构亮点
- 视觉 Token 极致压缩:756×756 图像 → 2,916 patches → 324 visual tokens → 81 KV entries(压缩比 7056×)
- 基于 deepseek-v4-flash(284B MoE,13B 激活参数)+ deepseek-vit
- compressed-sparse-attention (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
关键结果
| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
|---|---|---|---|---|
| CountQA (EM/RA@10) | 66.1/75.1 | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
| Pixmo-Count (EM) | 89.2 | 77.2 | 82.9 | 68.7 |
| SpatialMQA (ACC) | 69.4 | 61.9 | 58.2 | 60.6 |
| DS_Maze_Nav (ACC) | 66.9 | 50.6 | 49.4 | 49.8 |
| DS_Path_Trace (ACC) | 56.7 | 46.5 | 41.4 | 30.6 |
| Token per image | ~90 | ~740 | ~1,100 | ~870 |
局限与展望
- 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确
- 当前依赖显式触发词激活「视觉原语思考」机制
- 点原语在拓扑推理中的跨场景泛化能力有限
意义
多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。
本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。