36 lines
1.1 KiB
Markdown
36 lines
1.1 KiB
Markdown
---
|
||
title: "DeepSeek OCR"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: concept
|
||
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
|
||
sources:
|
||
- "[[unlimited-ocr-works-2026]]"
|
||
---
|
||
|
||
# DeepSeek OCR
|
||
|
||
DeepSeek OCR(arXiv:2510.18234)是深度求索提出的端到端 OCR 模型,Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder(16× 视觉 token 压缩)和 MoE 解码器(3B 参数,激活 500M)。
|
||
|
||
## 关键组件
|
||
|
||
### DeepEncoder
|
||
级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。
|
||
|
||
### MoE Decoder
|
||
3B 参数,MoE 架构,推理时激活仅 500M。大幅降低推理计算量。
|
||
|
||
## 作为基线的问题
|
||
|
||
标准 MHA 导致 KV cache 随输出长度线性膨胀,推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
|
||
|
||
## Unlimited OCR 的改进
|
||
|
||
保留 DeepEncoder(冻结),替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
|
||
|
||
## 参考
|
||
- [[unlimited-ocr-works-2026]]
|
||
- [[deepencoder]]
|
||
- [[mixture-of-experts]]
|
||
- [[end-to-end-ocr]]
|