Files
myWiki/concepts/deepseek-ocr.md

1.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DeepSeek OCR 2026-06-24 2026-06-24 concept
ocr
end-to-end
vlm
document-parsing
deepseek
unlimited-ocr-works-2026

DeepSeek OCR

DeepSeek OCRarXiv:2510.18234)是深度求索提出的端到端 OCR 模型Unlimited OCR 的直接基线。其核心设计包括 DeepEncoder16× 视觉 token 压缩)和 MoE 解码器3B 参数,激活 500M

关键组件

DeepEncoder

级联窗口注意 ViT + 全局注意,实现 16× token 压缩率。低激活值下实现高压缩比,使得多页长程 OCR 的 prefill 可接受。

MoE Decoder

3B 参数MoE 架构,推理时激活仅 500M。大幅降低推理计算量。

作为基线的问题

标准 MHA 导致 KV cache 随输出长度线性膨胀推理速度持续下降。6000 token 时 TPS 比 Unlimited OCR 低 35%。

Unlimited OCR 的改进

保留 DeepEncoder冻结替换 decoder 所有注意力层为 R-SWA → 恒定 KV cache + 恒定 TPS + 精度提升 6pp。

参考