SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

DeepEncoder

2026-06-24

2026-06-24

concept

vision-encoder

token-compression

ocr

vlm

unlimited-ocr-works-2026

DeepEncoder

DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器，被 Unlimited OCR 继承（冻结训练）。通过级联窗口注意 ViT 和全局注意，在低激活值下实现 16× token 压缩。

架构

窗口注意 ViT（局部特征提取）
全局注意（跨窗口信息聚合）
级联设计：先局部后全局

压缩率的意义

视觉 token 不参与状态转移（在 R-SWA 中静态编码），压缩率直接决定 prefill 长度上限：

16× 压缩率 → 10K 视觉 token ≈ 20-30 页（1024×1024）
10K 视觉 → ~100K 文本解码（1:10 视觉-文本 token 比）

在 Unlimited OCR 中的角色

训练时冻结 DeepEncoder，仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化，重新训练无必要。

参考