Files
myWiki/concepts/deepencoder.md

1.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DeepEncoder 2026-06-24 2026-06-24 concept
vision-encoder
token-compression
ocr
vlm
unlimited-ocr-works-2026

DeepEncoder

DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器,被 Unlimited OCR 继承(冻结训练)。通过级联窗口注意 ViT 和全局注意,在低激活值下实现 16× token 压缩。

架构

  • 窗口注意 ViT局部特征提取
  • 全局注意(跨窗口信息聚合)
  • 级联设计:先局部后全局

压缩率的意义

视觉 token 不参与状态转移(在 R-SWA 中静态编码),压缩率直接决定 prefill 长度上限:

  • 16× 压缩率 → 10K 视觉 token ≈ 20-30 页1024×1024
  • 10K 视觉 → ~100K 文本解码1:10 视觉-文本 token 比)

在 Unlimited OCR 中的角色

训练时冻结 DeepEncoder仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化,重新训练无必要。

参考