20260514:增加新内容
This commit is contained in:
98
reviews/thinking-with-visual-primitives-review-20260430.md
Normal file
98
reviews/thinking-with-visual-primitives-review-20260430.md
Normal file
@@ -0,0 +1,98 @@
|
||||
---
|
||||
title: "Review — Thinking with Visual Primitives"
|
||||
date: 2026-04-30
|
||||
paper: "Thinking with Visual Primitives"
|
||||
authors: "DeepSeek-AI"
|
||||
domain: "Multimodal AI / Visual Reasoning"
|
||||
---
|
||||
|
||||
# 📌 Thinking with Visual Primitives — 集成 Review
|
||||
|
||||
**论文**: Thinking with Visual Primitives
|
||||
**作者**: Ruijie Lu, Yiyang Ma, Xiaokang Chen (Project Lead) et al. — DeepSeek-AI, 北京大学, 清华大学
|
||||
**来源**: [GitHub](https://github.com/deepseek-ai/Thinking-with-Visual-Primitives) (2026)
|
||||
**集成时间**: 2026-04-30
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **视觉原语 (Visual Primitives)** — Bounding boxes 和 points 被提升为「思维的最小单位」,直接交织进 MLLM 的 Chain-of-Thought 推理链。框用于精确定位对象,点用于抽象空间引用和轨迹追踪。
|
||||
|
||||
2. **引用鸿沟 (Reference Gap)** — 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代。这是现有 MLLM 在复杂空间推理中逻辑崩溃的**根本瓶颈**,比感知鸿沟更深层。「Seeing is not reasoning.」
|
||||
|
||||
3. **极致 Token 效率** — 从 756×756 图像到仅 81 个 KV entries,压缩比 **7056×**。以 GPT-5.4 1/8、Gemini 1/12 的 token 预算,在空间推理和拓扑任务上实现反超。
|
||||
|
||||
4. **训练流水线** — 「train specialists—then—merge」策略:专项 SFT(框专家 FTwG + 点专家 FTwP)→ 专项 RL(GRPO + 多维度 RM)→ 统一 RFT → 在线策略蒸馏。
|
||||
|
||||
5. **四大冷启动任务** — 粗粒度计数、细粒度计数、迷宫导航、路径追踪。每个任务都设计了专门的奖励模型(指数衰减奖励、因果探索进度、双向轨迹评估等)。
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
### 核心连接
|
||||
```
|
||||
视觉原语 ←→ 引用鸿沟 ←→ 感知鸿沟
|
||||
↓
|
||||
框原语(计数/空间推理) + 点原语(迷宫/路径追踪)
|
||||
↓
|
||||
专项SFT→专项RL(GRPO)→统一RFT→在线策略蒸馏
|
||||
↓
|
||||
Token效率(7056×) ← CSA + DeepSeek-ViT
|
||||
```
|
||||
|
||||
### 扩展网络
|
||||
- 连接到已有概念: [[compressed-sparse-attention]], [[on-policy-distillation]], [[mixture-of-experts]], [[deepseek-v4-million-token-context]]
|
||||
- 新建 20 个概念页面,与现有 attention/MoE/训练方法概念形成密集交叉引用
|
||||
- 将 wiki 从 LLM 架构层**垂直延伸到多模态视觉推理层**
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
| 指标 | 数值 |
|
||||
|------|------|
|
||||
| 新增页面 | **21** 个(1 论文 + 20 概念) |
|
||||
| 总规模 | 143 → **164** 页 |
|
||||
| 链接密度 | 141 个交叉链接(仅新页面间) |
|
||||
| 网络完整性 | **100%** 无断链 |
|
||||
| 代码修复 | 75 个中文 wikilink → English kebab-case 格式化 |
|
||||
| 覆盖维度 | 新增「多模态视觉推理」知识维度 |
|
||||
|
||||
### 新增概念一览
|
||||
`visual-primitives`, `reference-gap`, `perception-gap`, `chain-of-thought`, `multimodal-large-language-model`, `system-2-thinking`, `deepseek-vit`, `deepseek-v4-flash`, `token-efficiency`, `coarse-grained-counting`, `fine-grained-counting`, `maze-navigation`, `path-tracing`, `group-relative-policy-optimization`, `specialized-sft`, `specialized-rl`, `unified-rft`, `exponential-decay-reward`, `bidirectional-trajectory-evaluation`, `reward-model`
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
### 1. 从「看到更多」到「指得更准」的范式转移
|
||||
|
||||
本文最深刻的贡献不是架构创新,而是**问题定义的重新框架化**。整个多模态社区一直在追求更高分辨率、更多视觉 token,好像问题就是「看得不够清楚」。DeepSeek 指出:即使完美感知,语言本身在空间指代上就是有缺陷的。这个洞察一旦提出就几乎是显然的——人类在解迷宫时不会自言自语「向左第三格再向右第五格」,而是直接用手指。
|
||||
|
||||
视觉原语本质上是在给 CoT 添加一个**空间类型系统**:让模型能够区分「说"红色的球"」(语言引用,有歧义)和「指 (342, 567) 那个位置」(空间引用,无歧义)。
|
||||
|
||||
### 2. Token 效率的工程奇迹
|
||||
|
||||
7056× 的压缩比是惊人的。这意味着 DeepSeek 在说:「我们不需要更贵的硬件,我们需要更聪明的信息压缩」。90 个 KV entries 承载了比 1,100 个密集 token 更丰富的空间信息——因为每个 token 都是精确的空间坐标,而非模糊的 visual embedding。
|
||||
|
||||
### 3. 对 Agent 和具身 AI 的潜在影响
|
||||
|
||||
这项工作的真正价值可能尚未完全释放。如果 MLLM 能够原生地「Think in coordinates」,那么:
|
||||
- **GUI Agent** 可以直接输出操作坐标而非依赖 OCR+语义匹配
|
||||
- **机器人操作** 可以接收精确的抓取点而非「那个杯子」
|
||||
- **自动驾驶** 可以用轨迹原语替代高维规划空间
|
||||
|
||||
---
|
||||
|
||||
## ⚠️ 局限与未来
|
||||
|
||||
1. **需要显式触发词** — 当前视觉原语能力无法自主激活
|
||||
2. **点原语的泛化有限** — 跨场景拓扑推理仍是开放挑战
|
||||
3. **与感知鸿沟方案的整合** — 理论上互补,实战待验证
|
||||
4. **中英文能力继承** — 训练数据无中文,但得益于基座模型的多语言能力意外地支持中文推理
|
||||
|
||||
---
|
||||
|
||||
*「多模态智能的未来不在于看到更多像素,而在于构建语言与视觉之间精确、无歧义的引用桥梁。」*
|
||||
Reference in New Issue
Block a user