myWiki/concepts/deepseek-ocr.md

---
title: "DeepSeek OCR"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"]
sources:
  - "[[unlimited-ocr-works-2026]]"
---

# DeepSeek OCR

DeepSeek OCR（arXiv:2510.18234）是深度求索提出的端到端 OCR 模型，Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder（16× 视觉 token 压缩）和 MoE 解码器（3B 参数，激活 500M）。

## 关键组件

### DeepEncoder
级联窗口注意 ViT + 全局注意，实现 16× token 压缩率。低激活值下实现高压缩比，使得多页长程 OCR 的 prefill 可接受。

### MoE Decoder
3B 参数，MoE 架构，推理时激活仅 500M。大幅降低推理计算量。

## 作为基线的问题

标准 MHA 导致 KV cache 随输出长度线性膨胀，推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。

## Unlimited OCR 的改进

保留 DeepEncoder（冻结），替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。

## 参考
- [[unlimited-ocr-works-2026]]
- [[deepencoder]]
- [[mixture-of-experts]]
- [[end-to-end-ocr]]