Files
myWiki/papers/unlimited-ocr-works-2026.md

2.8 KiB
Raw Blame History

title, created, updated, type, tags, sources, code
title created updated type tags sources code
Unlimited OCR Works (Yin et al., Baidu, 2026) 2026-06-24 2026-06-24 paper
ocr
attention-mechanism
long-horizon
kv-cache
r-swa
end-to-end
https://arxiv.org/abs/2606.23050
https://github.com/baidu/Unlimited-OCR

Unlimited OCR Works

Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026

问题

端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。

核心创新:reference-sliding-window-attention

Reference Sliding Window Attention (R-SWA) 是一种模仿人类解析工作记忆的注意力机制:

  • 每个 token 关注全部参考 token(视觉 token + prompt 前 n 个输出 tokenn=128
  • 参考 token 不参与状态转移(避免视觉特征逐渐模糊)
  • constant-kv-cache:始终为 Lm + nO(1) 而非 O(T)

与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。

模型架构

deepseek-ocr 为基线:

  • 保留 deepencoder16× 压缩率,级联窗口注意 ViT + 全局注意)
  • 替换 decoder 所有注意力层为 R-SWA
  • 3B 参数,mixture-of-experts 架构,激活仅 500M
  • 训练4000 步8×16 A800DeepEP EP=4megatron-lm
  • 推理:支持 Transformers + sglang,恒定 TPS 和 GPU 内存

关键结果

通用 OCRomnidocbench

版本 Unlimited OCR DeepSeek OCR 提升
v1.5 Overall 93.23 87.01 +6.22
v1.6 Overall 93.54 SOTA 级别

long-horizon-parsing

2-40+ 页书籍单次前向解析Distinct-n > 96%Edit Distance < 0.11。

推理效率

6000 token 时 TPS 比 DeepSeek OCR 高 35%,且全程保持恒定。

核心洞察

  1. 认知启发 — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向
  2. 架构极简 — 将所有标准 attention 替换为 R-SWA性能无损"lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够
  3. 通用性 — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务

局限性

  • 受 prefill 长度限制32K非真正无限
  • 未来训练更长上下文128K+ prefill pool 模拟翻页

来源

原始存档 | arXiv | GitHub