SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

5.1 KiB

Raw Blame History

title, date, paper, authors, domain

title	date	paper	authors	domain
Review — Thinking with Visual Primitives	2026-04-30	Thinking with Visual Primitives	DeepSeek-AI	Multimodal AI / Visual Reasoning

📌 Thinking with Visual Primitives — 集成 Review

论文: Thinking with Visual Primitives 作者: Ruijie Lu, Yiyang Ma, Xiaokang Chen (Project Lead) et al. — DeepSeek-AI, 北京大学, 清华大学来源: GitHub (2026) 集成时间: 2026-04-30

🎯 核心概念

视觉原语 (Visual Primitives) — Bounding boxes 和 points 被提升为「思维的最小单位」，直接交织进 MLLM 的 Chain-of-Thought 推理链。框用于精确定位对象，点用于抽象空间引用和轨迹追踪。
引用鸿沟 (Reference Gap) — 自然语言在连续视觉空间中无法提供精确、无歧义的空间指代。这是现有 MLLM 在复杂空间推理中逻辑崩溃的根本瓶颈，比感知鸿沟更深层。「Seeing is not reasoning.」
极致 Token 效率 — 从 756×756 图像到仅 81 个 KV entries，压缩比 7056×。以 GPT-5.4 1/8、Gemini 1/12 的 token 预算，在空间推理和拓扑任务上实现反超。
训练流水线 — 「train specialists—then—merge」策略：专项 SFT（框专家 FTwG + 点专家 FTwP）→ 专项 RL（GRPO + 多维度 RM）→ 统一 RFT → 在线策略蒸馏。
四大冷启动任务 — 粗粒度计数、细粒度计数、迷宫导航、路径追踪。每个任务都设计了专门的奖励模型（指数衰减奖励、因果探索进度、双向轨迹评估等）。

🔗 概念网络

核心连接

视觉原语 ←→ 引用鸿沟 ←→ 感知鸿沟
    ↓
 框原语（计数/空间推理）  +  点原语（迷宫/路径追踪）
    ↓
专项SFT→专项RL(GRPO)→统一RFT→在线策略蒸馏
    ↓
Token效率(7056×) ← CSA + DeepSeek-ViT

扩展网络

连接到已有概念: compressed-sparse-attention, on-policy-distillation, mixture-of-experts, deepseek-v4-million-token-context
新建 20 个概念页面，与现有 attention/MoE/训练方法概念形成密集交叉引用
将 wiki 从 LLM 架构层垂直延伸到多模态视觉推理层

📚 Wiki 集成

指标	数值
新增页面	21 个（1 论文 + 20 概念）
总规模	143 → 164 页
链接密度	141 个交叉链接（仅新页面间）
网络完整性	100% 无断链
代码修复	75 个中文 wikilink → English kebab-case 格式化
覆盖维度	新增「多模态视觉推理」知识维度

新增概念一览

visual-primitives, reference-gap, perception-gap, chain-of-thought, multimodal-large-language-model, system-2-thinking, deepseek-vit, deepseek-v4-flash, token-efficiency, coarse-grained-counting, fine-grained-counting, maze-navigation, path-tracing, group-relative-policy-optimization, specialized-sft, specialized-rl, unified-rft, exponential-decay-reward, bidirectional-trajectory-evaluation, reward-model

💡 关键洞察

1. 从「看到更多」到「指得更准」的范式转移

本文最深刻的贡献不是架构创新，而是问题定义的重新框架化。整个多模态社区一直在追求更高分辨率、更多视觉 token，好像问题就是「看得不够清楚」。DeepSeek 指出：即使完美感知，语言本身在空间指代上就是有缺陷的。这个洞察一旦提出就几乎是显然的——人类在解迷宫时不会自言自语「向左第三格再向右第五格」，而是直接用手指。

视觉原语本质上是在给 CoT 添加一个空间类型系统：让模型能够区分「说"红色的球"」（语言引用，有歧义）和「指 (342, 567) 那个位置」（空间引用，无歧义）。

2. Token 效率的工程奇迹

7056× 的压缩比是惊人的。这意味着 DeepSeek 在说：「我们不需要更贵的硬件，我们需要更聪明的信息压缩」。90 个 KV entries 承载了比 1,100 个密集 token 更丰富的空间信息——因为每个 token 都是精确的空间坐标，而非模糊的 visual embedding。

3. 对 Agent 和具身 AI 的潜在影响

这项工作的真正价值可能尚未完全释放。如果 MLLM 能够原生地「Think in coordinates」，那么：

GUI Agent 可以直接输出操作坐标而非依赖 OCR+语义匹配
机器人操作 可以接收精确的抓取点而非「那个杯子」
自动驾驶 可以用轨迹原语替代高维规划空间

⚠️ 局限与未来

需要显式触发词 — 当前视觉原语能力无法自主激活
点原语的泛化有限 — 跨场景拓扑推理仍是开放挑战
与感知鸿沟方案的整合 — 理论上互补，实战待验证
中英文能力继承 — 训练数据无中文，但得益于基座模型的多语言能力意外地支持中文推理

「多模态智能的未来不在于看到更多像素，而在于构建语言与视觉之间精确、无歧义的引用桥梁。」

5.1 KiB Raw Blame History Unescape Escape