2.8 KiB
2.8 KiB
title, created, updated, type, tags, sources, code
| title | created | updated | type | tags | sources | code | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Unlimited OCR Works (Yin et al., Baidu, 2026) | 2026-06-24 | 2026-06-24 | paper |
|
|
https://github.com/baidu/Unlimited-OCR |
Unlimited OCR Works
Baidu Inc. | arXiv:2606.23050 | cs.CV / cs.CL | Jun 2026
问题
端到端 OCR 模型用 LLM 解码器利用语言先验提升精度,但 KV cache 随输出长度线性膨胀,推理速度持续下降 — 与人类长程抄写效率恒定的行为背道而驰。
核心创新:reference-sliding-window-attention
Reference Sliding Window Attention (R-SWA) 是一种模仿人类解析工作记忆的注意力机制:
- 每个 token 关注全部参考 token(视觉 token + prompt)+ 前 n 个输出 token(n=128)
- 参考 token 不参与状态转移(避免视觉特征逐渐模糊)
- constant-kv-cache:始终为 Lm + n,O(1) 而非 O(T)
与标准 SWA 的关键区别:视觉 token 被排除在状态转移之外 — 标准 SWA 中所有 token 平等滑出窗口,会导致视觉特征随解码推进而模糊退化。
模型架构
以 deepseek-ocr 为基线:
- 保留 deepencoder(16× 压缩率,级联窗口注意 ViT + 全局注意)
- 替换 decoder 所有注意力层为 R-SWA
- 3B 参数,mixture-of-experts 架构,激活仅 500M
- 训练:4000 步,8×16 A800,DeepEP EP=4,megatron-lm
- 推理:支持 Transformers + sglang,恒定 TPS 和 GPU 内存
关键结果
通用 OCR(omnidocbench)
| 版本 | Unlimited OCR | DeepSeek OCR | 提升 |
|---|---|---|---|
| v1.5 Overall | 93.23 | 87.01 | +6.22 |
| v1.6 Overall | 93.54 | — | SOTA 级别 |
long-horizon-parsing
2-40+ 页书籍,单次前向解析,Distinct-n > 96%,Edit Distance < 0.11。
推理效率
6000 token 时 TPS 比 DeepSeek OCR 高 35%,且全程保持恒定。
核心洞察
- 认知启发 — R-SWA 模仿人类抄写行为:不回溯全部已写内容,仅关注附近上下文维持空间定向
- 架构极简 — 将所有标准 attention 替换为 R-SWA,性能无损("lossless"),证明历史信息通过滑动窗口的 soft forgetting 足够
- 通用性 — R-SWA 是通用解析注意力机制,适用于 ASR、翻译等所有基于参考的长程任务
局限性
- 受 prefill 长度限制(32K),非真正无限
- 未来:训练更长上下文(128K)+ prefill pool 模拟翻页