67 lines
2.8 KiB
Markdown
67 lines
2.8 KiB
Markdown
---
|
||
title: "Unlimited OCR Works (Yin et al., Baidu, 2026)"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: paper
|
||
tags: ["ocr", "attention-mechanism", "long-horizon", "kv-cache", "r-swa", "end-to-end"]
|
||
sources:
|
||
- "https://arxiv.org/abs/2606.23050"
|
||
code: "https://github.com/baidu/Unlimited-OCR"
|
||
---
|
||
|
||
# Unlimited OCR Works
|
||
|
||
> Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
|
||
|
||
## 问题
|
||
|
||
端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
|
||
|
||
## 核心创新:[[reference-sliding-window-attention|R-SWA]]
|
||
|
||
**Reference Sliding Window Attention (R-SWA)** 是一种模仿人类解析工作记忆的注意力机制:
|
||
|
||
- 每个 token 关注**全部参考 token**(视觉 token + prompt)+ **前 n 个输出 token**(n=128)
|
||
- 参考 token **不参与状态转移**(避免视觉特征逐渐模糊)
|
||
- **[[constant-kv-cache|KV cache 恒定]]**:始终为 Lm + n,O(1) 而非 O(T)
|
||
|
||
与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。
|
||
|
||
## 模型架构
|
||
|
||
以 [[deepseek-ocr|DeepSeek OCR]] 为基线:
|
||
- 保留 [[deepencoder|DeepEncoder]](16× 压缩率,级联窗口注意 ViT + 全局注意)
|
||
- 替换 decoder 所有注意力层为 R-SWA
|
||
- 3B 参数,[[mixture-of-experts|MoE]] 架构,激活仅 500M
|
||
- 训练:4000 步,8×16 A800,DeepEP EP=4,[[megatron-lm|Megatron-LM]]
|
||
- 推理:支持 Transformers + [[sglang|SGLang]],恒定 TPS 和 GPU 内存
|
||
|
||
## 关键结果
|
||
|
||
### 通用 OCR([[omnidocbench|OmniDocBench]])
|
||
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|
||
|------|--------------|-------------|------|
|
||
| v1.5 Overall | **93.23** | 87.01 | +6.22 |
|
||
| v1.6 Overall | 93.54 | — | SOTA 级别 |
|
||
|
||
### [[long-horizon-parsing|长程解析]]
|
||
2-40+ 页书籍,单次前向解析,Distinct-n > 96%,Edit Distance < 0.11。
|
||
|
||
### 推理效率
|
||
6000 token 时 TPS 比 DeepSeek OCR 高 **35%**,且全程保持恒定。
|
||
|
||
## 核心洞察
|
||
|
||
1. **认知启发** — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向
|
||
2. **架构极简** — 将所有标准 attention 替换为 R-SWA,性能无损("lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够
|
||
3. **通用性** — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务
|
||
|
||
## 局限性
|
||
|
||
- 受 prefill 长度限制(32K),非真正无限
|
||
- 未来:训练更长上下文(128K)+ prefill pool 模拟翻页
|
||
|
||
## 来源
|
||
|
||
[原始存档](raw/papers/unlimited-ocr-works-2026.md) | [arXiv](https://arxiv.org/abs/2606.23050) | [GitHub](https://github.com/baidu/Unlimited-OCR)
|