myWiki/papers/unlimited-ocr-works-2026.md

---
title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
sources:
  - "https://arxiv.org/abs/2606.23050"
code: "https://github.com/baidu/Unlimited-OCR"
---

# Unlimited OCR Works

> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026

## 问题

端到端 OCR 模型用 LLM 解码器利用语言先验提升精度，但 KV cache 随输出长度线性膨胀，推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。

## 核心创新：[[reference-sliding-window-attention|R-SWA]]

**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制：

- 每个 token 关注**全部参考 token**（视觉 token + prompt）＋ **前 n 个输出 token**（n=128）
- 参考 token **不参与状态转移**（避免视觉特征逐渐模糊）
- **[[constant-kv-cache|KV cache 恒定]]**：始终为 Lm + n，O(1) 而非 O(T)

与标准 SWA 的关键区别：视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口，会导致视觉特征随解码推进而模糊退化。

## 模型架构

以 [[deepseek-ocr|DeepSeek OCR]] 为基线：
- 保留 [[deepencoder|DeepEncoder]]（16× 压缩率，级联窗口注意 ViT + 全局注意）
- 替换 decoder 所有注意力层为 R-SWA
- 3B 参数，[[mixture-of-experts|MoE]] 架构，激活仅 500M
- 训练：4000 步，8×16 A800，DeepEP EP=4，[[megatron-lm|Megatron-LM]]
- 推理：支持 Transformers + [[sglang|SGLang]]，恒定 TPS 和 GPU 内存

## 关键结果

### 通用 OCR（[[omnidocbench|OmniDocBench]]）
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|------|--------------|-------------|------|
| v1.5 Overall | **93.23** | 87.01 | +6.22 |
| v1.6 Overall | 93.54 | — | SOTA 级别 |

### [[long-horizon-parsing|长程解析]]
2-40+ 页书籍，单次前向解析，Distinct-n > 96%，Edit Distance < 0.11。

### 推理效率
6000 token 时 TPS 比 DeepSeek OCR 高 **35%**，且全程保持恒定。

## 核心洞察

1. **认知启发** — R-SWA 模仿人类抄写行为：不回溯全部已写内容，仅关注附近上下文维持空间定向
2. **架构极简** — 将所有标准 attention 替换为 R-SWA，性能无损（"lossless"），证明历史信息通过滑动窗口的 soft forgetting 足够
3. **通用性** — R-SWA 是通用解析注意力机制，适用于 ASR、翻译等所有基于参考的长程任务

## 局限性

- 受 prefill 长度限制（32K），非真正无限
- 未来：训练更长上下文（128K）+ prefill pool 模拟翻页

## 来源

[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)