Files
myWiki/concepts/deepencoder.md

35 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "DeepEncoder"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["vision-encoder", "token-compression", "ocr", "vlm"]
sources:
- "[[unlimited-ocr-works-2026]]"
---
# DeepEncoder
DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器,被 Unlimited OCR 继承(冻结训练)。通过级联窗口注意 ViT 和全局注意,在低激活值下实现 16× token 压缩。
## 架构
- 窗口注意 ViT局部特征提取
- 全局注意(跨窗口信息聚合)
- 级联设计:先局部后全局
## 压缩率的意义
视觉 token 不参与状态转移(在 R-SWA 中静态编码),压缩率直接决定 prefill 长度上限:
- 16× 压缩率 → 10K 视觉 token ≈ 20-30 页1024×1024
- 10K 视觉 → ~100K 文本解码1:10 视觉-文本 token 比)
## 在 Unlimited OCR 中的角色
训练时冻结 DeepEncoder仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化,重新训练无必要。
## 参考
- [[unlimited-ocr-works-2026]]
- [[deepseek-ocr]]
- [[reference-sliding-window-attention]]