20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/deepseek-vit.md
+++ b/concepts/deepseek-vit.md
@@ -0,0 +1,40 @@
+---
+title: "DeepSeek-ViT"
+domain: "Deep Learning / Vision"
+tags: [vit, vision-transformer, deepseek, visual-encoding]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# DeepSeek-ViT
+
+> DeepSeek 自研的视觉 Transformer，支持任意分辨率输入，配合 3×3 空间压缩实现极致 token 效率。
+
+## 架构
+
+- 从头训练的 Vision Transformer
+- 支持**任意分辨率**输入
+- 14×14 patch size → 生成 patch tokens
+- ViT 输出端施加 **3×3 空间 token 压缩**：每 9 个相邻 patch token 沿通道维度压缩为 1 个 token
+
+## Token 压缩管道
+
+以 756×756 图像为例：
+
+```
+原始像素 (571,536) 
+  → Patch Embedding → 2,916 patch tokens
+    → 3×3 空间压缩 → 324 visual tokens (进入 LLM prefilling)
+      → CSA 压缩 → 81 KV entries
+```
+
+**总压缩比：7056×**
+
+## 视觉 token 数量限制
+
+为平衡性能和计算成本，视觉 token 输出限制在 **81 到 384** 之间。超出范围的图像在保留宽高比的前提下缩放。
+
+## 相关概念
+
+- [[compressed-sparse-attention|压缩稀疏注意力]] — ViT 之后的 KV cache 压缩
+- [[visual-primitives|视觉原语]] — ViT 输出的使用方式
+- [[token-efficiency|token-效率]] — 整体效率指标