Files
myWiki/papers/unlimited-ocr-works-2026.md

67 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
sources:
- "https://arxiv.org/abs/2606.23050"
code: "https://github.com/baidu/Unlimited-OCR"
---
# Unlimited OCR Works
> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
## 问题
端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
## 核心创新:[[reference-sliding-window-attention|R-SWA]]
**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制:
- 每个 token 关注**全部参考 token**(视觉 token + prompt **前 n 个输出 token**n=128
- 参考 token **不参与状态转移**(避免视觉特征逐渐模糊)
- **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + nO(1) 而非 O(T)
与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。
## 模型架构
以 [[deepseek-ocr|DeepSeek OCR]] 为基线:
- 保留 [[deepencoder|DeepEncoder]]16× 压缩率,级联窗口注意 ViT + 全局注意)
- 替换 decoder 所有注意力层为 R-SWA
- 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M
- 训练4000 步8×16 A800DeepEP EP=4[[megatron-lm|Megatron-LM]]
- 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存
## 关键结果
### 通用 OCR[[omnidocbench|OmniDocBench]]
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|------|--------------|-------------|------|
| v1.5 Overall | **93.23** | 87.01 | +6.22 |
| v1.6 Overall | 93.54 | — | SOTA 级别 |
### [[long-horizon-parsing|长程解析]]
2-40+ 页书籍单次前向解析Distinct-n > 96%Edit Distance < 0.11
### 推理效率
6000 token TPS DeepSeek OCR **35%**且全程保持恒定
## 核心洞察
1. **认知启发** R-SWA 模仿人类抄写行为不回溯全部已写内容仅关注附近上下文维持空间定向
2. **架构极简** 将所有标准 attention 替换为 R-SWA性能无损"lossless"证明历史信息通过滑动窗口的 soft forgetting 足够
3. **通用性** R-SWA 是通用解析注意力机制适用于 ASR翻译等所有基于参考的长程任务
## 局限性
- prefill 长度限制32K非真正无限
- 未来训练更长上下文128K+ prefill pool 模拟翻页
## 来源
[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)