Files
myWiki/papers/thinking-with-visual-primitives.md

91 lines
4.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Thinking with Visual Primitives — 以视觉原语思考"
domain: "Multimodal AI / Visual Reasoning"
tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency]
authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)"
year: 2026
source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives"
---
# Thinking with Visual Primitives
> **"Seeing is not reasoning."** — 本文的根本洞见
## 核心问题
当前多模态大模型([[multimodal-large-language-model]])的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]]Perception Gap模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。
本文指出一个更深层的瓶颈:**[[reference-gap|引用鸿沟]]**Reference Gap——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
## 方法论贡献
提出 **[[visual-primitives|视觉原语思考]]** 框架将空间标记bounding boxes 和 points提升为「思维的最小单位」直接交织进推理链中。
### 两种视觉原语
| 原语类型 | 功能 | 适用场景 |
|----------|------|----------|
| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
### 训练流程
```
Pretraining → Specialized SFT (FTwG + FTwP)
→ Specialized RL (GRPO per expert)
→ Unified RFT (rejection sampling)
→ On-Policy Distillation (KL consolidation)
```
关键技术:
- **[[specialized-sft|专项监督微调]]**分别训练框原语专家FTwG和点原语专家FTwP避免模式冲突
- **[[specialized-rl|专项强化学习]]**:使用 [[group-relative-policy-optimization|群体相对策略优化]],配合三类奖励模型(格式 RM、质量 RM、准确率 RM
- **[[unified-rft|统一拒绝采样微调]]**:利用专家模型 rollout → 按难度筛选 → 合并训练
- **[[on-policy-distillation|在线策略蒸馏]]**:通过 KL 散度将两个专家的能力蒸馏到统一模型
### 冷启动数据设计
四大任务维度:
1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数(如「图中有多少只狗」)
2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数(如「白色的狗有多少只」)
3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性,输出验证路径
4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线,识别端点
### 奖励模型设计
| 奖励类型 | 方法 | 关键创新 |
|----------|------|----------|
| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 |
| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 |
## 架构亮点
- **视觉 Token 极致压缩**756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**(压缩比 7056×
- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]]284B MoE13B 激活参数)+ [[deepseek-vit|DeepSeek-ViT]]
- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
## 关键结果
| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
|-----------|------|---------|----------------|-------------------|
| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 |
| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 |
| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 |
| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 |
| Token per image | **~90** | ~740 | ~1,100 | ~870 |
## 局限与展望
1. 受限于输入分辨率,细粒度场景下偶有视觉原语输出不精确
2. 当前依赖显式触发词激活「视觉原语思考」机制
3. 点原语在拓扑推理中的跨场景泛化能力有限
## 意义
> **多模态智能的未来不在于"看到更多像素",而在于构建语言与视觉之间精确、无歧义的引用桥梁。**
本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径:不是增大视觉 token 预算,而是提升每个 token 的信息密度和指代精度。