SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.2 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

DeepSeek-ViT

Deep Learning / Vision

vit

vision-transformer

deepseek

visual-encoding

thinking-with-visual-primitives

DeepSeek-ViT

DeepSeek 自研的视觉 Transformer，支持任意分辨率输入，配合 3×3 空间压缩实现极致 token 效率。

架构

从头训练的 Vision Transformer
支持任意分辨率输入
14×14 patch size → 生成 patch tokens
ViT 输出端施加 3×3 空间 token 压缩：每 9 个相邻 patch token 沿通道维度压缩为 1 个 token

Token 压缩管道

以 756×756 图像为例：

原始像素 (571,536) 
  → Patch Embedding → 2,916 patch tokens
    → 3×3 空间压缩 → 324 visual tokens (进入 LLM prefilling)
      → CSA 压缩 → 81 KV entries

总压缩比：7056×

视觉 token 数量限制

为平衡性能和计算成本，视觉 token 输出限制在 81 到 384 之间。超出范围的图像在保留宽高比的前提下缩放。

相关概念

compressed-sparse-attention — ViT 之后的 KV cache 压缩
visual-primitives — ViT 输出的使用方式
token-efficiency — 整体效率指标