20260625:很多新内容
This commit is contained in:
34
concepts/deepencoder.md
Normal file
34
concepts/deepencoder.md
Normal file
@@ -0,0 +1,34 @@
|
||||
---
|
||||
title: "DeepEncoder"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["vision-encoder", "token-compression", "ocr", "vlm"]
|
||||
sources:
|
||||
- "[[unlimited-ocr-works-2026]]"
|
||||
---
|
||||
|
||||
# DeepEncoder
|
||||
|
||||
DeepEncoder 是 DeepSeek OCR 提出的高压缩率视觉编码器,被 Unlimited OCR 继承(冻结训练)。通过级联窗口注意 ViT 和全局注意,在低激活值下实现 16× token 压缩。
|
||||
|
||||
## 架构
|
||||
|
||||
- 窗口注意 ViT(局部特征提取)
|
||||
- 全局注意(跨窗口信息聚合)
|
||||
- 级联设计:先局部后全局
|
||||
|
||||
## 压缩率的意义
|
||||
|
||||
视觉 token 不参与状态转移(在 R-SWA 中静态编码),压缩率直接决定 prefill 长度上限:
|
||||
- 16× 压缩率 → 10K 视觉 token ≈ 20-30 页(1024×1024)
|
||||
- 10K 视觉 → ~100K 文本解码(1:10 视觉-文本 token 比)
|
||||
|
||||
## 在 Unlimited OCR 中的角色
|
||||
|
||||
训练时冻结 DeepEncoder,仅训练 LLM 参数。这是合理的——DeepEncoder 已在 DeepSeek OCR 中充分优化,重新训练无必要。
|
||||
|
||||
## 参考
|
||||
- [[unlimited-ocr-works-2026]]
|
||||
- [[deepseek-ocr]]
|
||||
- [[reference-sliding-window-attention]]
|
||||
Reference in New Issue
Block a user