--- title: "DeepSeek OCR" created: 2026-06-24 updated: 2026-06-24 type: concept tags: ["ocr", "end-to-end", "vlm", "document-parsing", "deepseek"] sources: - "[[unlimited-ocr-works-2026]]" --- # DeepSeek OCR DeepSeek OCR(arXiv:2510.18234)是深度求索提出的端到端 OCR 模型,Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder(16× 视觉 token 压缩)和 MoE 解码器(3B 参数,激活 500M)。 ## 关键组件 ### DeepEncoder 级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。 ### MoE Decoder 3B 参数,MoE 架构,推理时激活仅 500M。大幅降低推理计算量。 ## 作为基线的问题 标准 MHA 导致 KV cache 随输出长度线性膨胀,推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。 ## Unlimited OCR 的改进 保留 DeepEncoder(冻结),替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。 ## 参考 - [[unlimited-ocr-works-2026]] - [[deepencoder]] - [[mixture-of-experts]] - [[end-to-end-ocr]]