20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/papers/thinking-with-visual-primitives.md
+++ b/papers/thinking-with-visual-primitives.md
@@ -0,0 +1,91 @@
+---
+title: "Thinking with Visual Primitives — 以视觉原语思考"
+domain: "Multimodal AI / Visual Reasoning"
+tags: [visual-primitives, multimodal, chain-of-thought, spatial-reasoning, token-efficiency]
+authors: "DeepSeek-AI (Ruijie Lu, Yiyang Ma, Xiaokang Chen et al.)"
+year: 2026
+source: "https://github.com/deepseek-ai/Thinking-with-Visual-Primitives"
+---
+
+# Thinking with Visual Primitives
+
+> **"Seeing is not reasoning."** — 本文的根本洞见
+
+## 核心问题
+
+当前多模态大模型（[[multimodal-large-language-model]]）的 Chain-of-Thought 推理几乎完全局限在语言空间。即使通过高分辨率裁剪弥合了[[perception-gap|感知鸿沟]]（Perception Gap），模型在复杂空间推理中仍然频繁发生**逻辑崩溃**。
+
+本文指出一个更深层的瓶颈：**[[reference-gap|引用鸿沟]]**（Reference Gap）——自然语言无法在连续视觉空间中提供精确、无歧义的空间指代。
+
+## 方法论贡献
+
+提出 **[[visual-primitives|视觉原语思考]]** 框架：将空间标记（bounding boxes 和 points）提升为「思维的最小单位」，直接交织进推理链中。
+
+### 两种视觉原语
+
+| 原语类型 | 功能 | 适用场景 |
+|----------|------|----------|
+| **Bounding Box** (框) | 精确定位对象位置和尺度 | 计数、空间关系推理、视觉问答 |
+| **Point** (点) | 抽象空间引用、轨迹追踪 | 迷宫导航、路径追踪、拓扑推理 |
+
+### 训练流程
+
+```
+Pretraining → Specialized SFT (FTwG + FTwP)
+           → Specialized RL (GRPO per expert)
+           → Unified RFT (rejection sampling)
+           → On-Policy Distillation (KL consolidation)
+```
+
+关键技术：
+- **[[specialized-sft|专项监督微调]]**：分别训练框原语专家（FTwG）和点原语专家（FTwP），避免模式冲突
+- **[[specialized-rl|专项强化学习]]**：使用 [[group-relative-policy-optimization|群体相对策略优化]]，配合三类奖励模型（格式 RM、质量 RM、准确率 RM）
+- **[[unified-rft|统一拒绝采样微调]]**：利用专家模型 rollout → 按难度筛选 → 合并训练
+- **[[on-policy-distillation|在线策略蒸馏]]**：通过 KL 散度将两个专家的能力蒸馏到统一模型
+
+### 冷启动数据设计
+
+四大任务维度：
+1. **[[coarse-grained-counting|粗粒度计数]]** — 类别级目标计数（如「图中有多少只狗」）
+2. **[[fine-grained-counting|细粒度计数]]** — 属性/空间约束计数（如「白色的狗有多少只」）
+3. **[[maze-navigation|迷宫导航]]** — 确定迷宫可解性，输出验证路径
+4. **[[path-tracing|路径追踪]]** — 追踪纠缠曲线，识别端点
+
+### 奖励模型设计
+
+| 奖励类型 | 方法 | 关键创新 |
+|----------|------|----------|
+| Format RM | 规则检查 | 格式正确性 + 防重复框生成 |
+| Quality RM | LLM 评判 | 一致性、矛盾检测、奖励黑客防御 |
+| 计数 Accuracy RM | [[exponential-decay-reward|指数衰减奖励]] | 平滑相对误差惩罚 |
+| 迷宫 Accuracy RM | 因果探索进度 + 完整性 + 违规惩罚 | 密集信号、非二元 |
+| 路径 Accuracy RM | [[bidirectional-trajectory-evaluation|双向轨迹评估]] | 前向偏差 + 反向覆盖率 |
+
+## 架构亮点
+
+- **视觉 Token 极致压缩**：756×756 图像 → 2,916 patches → 324 visual tokens → **81 KV entries**（压缩比 7056×）
+- 基于 [[deepseek-v4-flash|DeepSeek-V4-Flash]]（284B MoE，13B 激活参数）+ [[deepseek-vit|DeepSeek-ViT]]
+- [[compressed-sparse-attention|压缩稀疏注意力]] (CSA) 将每 m 个视觉 token 压缩为一个 KV entry
+
+## 关键结果
+
+| Benchmark | Ours | GPT-5.4 | Gemini-3-Flash | Claude-Sonnet-4.6 |
+|-----------|------|---------|----------------|-------------------|
+| CountQA (EM/RA@10) | **66.1/75.1** | 48.3/60.3 | 34.8/46.6 | 43.2/54.6 |
+| Pixmo-Count (EM) | **89.2** | 77.2 | 82.9 | 68.7 |
+| SpatialMQA (ACC) | **69.4** | 61.9 | 58.2 | 60.6 |
+| DS_Maze_Nav (ACC) | **66.9** | 50.6 | 49.4 | 49.8 |
+| DS_Path_Trace (ACC) | **56.7** | 46.5 | 41.4 | 30.6 |
+| Token per image | **~90** | ~740 | ~1,100 | ~870 |
+
+## 局限与展望
+
+1. 受限于输入分辨率，细粒度场景下偶有视觉原语输出不精确
+2. 当前依赖显式触发词激活「视觉原语思考」机制
+3. 点原语在拓扑推理中的跨场景泛化能力有限
+
+## 意义
+
+> **多模态智能的未来不在于"看到更多像素"，而在于构建语言与视觉之间精确、无歧义的引用桥梁。**
+
+本工作为 System-2 式多模态推理指明了一条高效、可扩展的路径：不是增大视觉 token 预算，而是提升每个 token 的信息密度和指代精度。