--- title: "Unlimited OCR Works (Yin et al., Baidu, 2026)" created: 2026-06-24 updated: 2026-06-24 type: paper tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"] sources: - "https://arxiv.org/abs/2606.23050" code: "https://github.com/baidu/Unlimited-OCR" --- # Unlimited OCR Works > Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026 ## 问题 端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。 ## 核心创新:[[reference-sliding-window-attention|R-SWA]] **Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制: - 每个 token 关注**全部参考 token**(视觉 token + prompt)+ **前 n 个输出 token**(n=128) - 参考 token **不参与状态转移**(避免视觉特征逐渐模糊) - **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + n,O(1) 而非 O(T) 与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。 ## 模型架构 以 [[deepseek-ocr|DeepSeek OCR]] 为基线: - 保留 [[deepencoder|DeepEncoder]](16× 压缩率,级联窗口注意 ViT + 全局注意) - 替换 decoder 所有注意力层为 R-SWA - 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M - 训练:4000 步,8×16 A800,DeepEP EP=4,[[megatron-lm|Megatron-LM]] - 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存 ## 关键结果 ### 通用 OCR([[omnidocbench|OmniDocBench]]) | 版本 | Unlimited OCR | DeepSeek OCR | 提升 | |------|--------------|-------------|------| | v1.5 Overall | **93.23** | 87.01 | +6.22 | | v1.6 Overall | 93.54 | — | SOTA 级别 | ### [[long-horizon-parsing|长程解析]] 2-40+ 页书籍,单次前向解析,Distinct-n > 96%,Edit Distance < 0.11。 ### 推理效率 6000 token 时 TPS 比 DeepSeek OCR 高 **35%**,且全程保持恒定。 ## 核心洞察 1. **认知启发** — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向 2. **架构极简** — 将所有标准 attention 替换为 R-SWA,性能无损("lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够 3. **通用性** — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务 ## 局限性 - 受 prefill 长度限制(32K),非真正无限 - 未来:训练更长上下文(128K)+ prefill pool 模拟翻页 ## 来源 [原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)