Files
myWiki/concepts/deepseek-ocr.md

36 lines
1.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "DeepSeek OCR"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
sources:
- "[[unlimited-ocr-works-2026]]"
---
# DeepSeek OCR
DeepSeek OCRarXiv:2510.18234)是深度求索提出的端到端 OCR 模型Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder16× 视觉 token 压缩)和 MoE 解码器3B 参数,激活 500M
## 关键组件
### DeepEncoder
级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。
### MoE Decoder
3B 参数MoE 架构,推理时激活仅 500M。大幅降低推理计算量。
## 作为基线的问题
标准 MHA 导致 KV cache 随输出长度线性膨胀推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。
## Unlimited OCR 的改进
保留 DeepEncoder冻结替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。
## 参考
- [[unlimited-ocr-works-2026]]
- [[deepencoder]]
- [[mixture-of-experts]]
- [[end-to-end-ocr]]