1.2 KiB
1.2 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek-ViT | Deep Learning / Vision |
|
|
DeepSeek-ViT
DeepSeek 自研的视觉 Transformer,支持任意分辨率输入,配合 3×3 空间压缩实现极致 token 效率。
架构
- 从头训练的 Vision Transformer
- 支持任意分辨率输入
- 14×14 patch size → 生成 patch tokens
- ViT 输出端施加 3×3 空间 token 压缩:每 9 个相邻 patch token 沿通道维度压缩为 1 个 token
Token 压缩管道
以 756×756 图像为例:
原始像素 (571,536)
→ Patch Embedding → 2,916 patch tokens
→ 3×3 空间压缩 → 324 visual tokens (进入 LLM prefilling)
→ CSA 压缩 → 81 KV entries
总压缩比:7056×
视觉 token 数量限制
为平衡性能和计算成本,视觉 token 输出限制在 81 到 384 之间。超出范围的图像在保留宽高比的前提下缩放。
相关概念
- compressed-sparse-attention — ViT 之后的 KV cache 压缩
- visual-primitives — ViT 输出的使用方式
- token-efficiency — 整体效率指标