Unlimited OCR Works

Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026

问题

端到端 OCR 模型用 LLM 解码器利用语言先验提升精度，但 KV cache 随输出长度线性膨胀，推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。

Reference Sliding Window Attention (R-SWA) 是一种模仿人类解析工作记忆的注意力机制：

与标准 SWA 的关键区别：视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口，会导致视觉特征随解码推进而模糊退化。

以 deepseek-ocr 为基线：

版本	Unlimited OCR	DeepSeek OCR	提升
v1.5 Overall	93.23	87.01	+6.22
v1.6 Overall	93.54	—	SOTA 级别

2-40+ 页书籍，单次前向解析，Distinct-n > 96%，Edit Distance < 0.11。

6000 token 时 TPS 比 DeepSeek OCR 高 35%，且全程保持恒定。

认知启发 — R-SWA 模仿人类抄写行为：不回溯全部已写内容，仅关注附近上下文维持空间定向
架构极简 — 将所有标准 attention 替换为 R-SWA，性能无损（"lossless"），证明历史信息通过滑动窗口的 soft forgetting 足够
通用性 — R-SWA 是通用解析注意力机制，适用于 ASR、翻译等所有基于参考的长程任务