2.1 KiB
2.1 KiB
title, author, source, date, type, venue, tags, code
| title | author | source | date | type | venue | tags | code | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing | Youyang Yin, Huanhuan Liu*, YY†, et al. (Baidu Inc.) | arXiv 2606.23050 | 2026-06-22 | paper | arXiv (cs.CV, cs.CL) |
|
https://github.com/baidu/Unlimited-OCR |
Unlimited OCR Works
Youyang Yin, Huanhuan Liu*, YY†, Qunyi Xie, Chaorun Liu, Shiqi Yang, Shaohua Wang, Zhanlong Liu, Hao Zou, Jinyue Chen, Shu Wei, Jingjing Wu, Mingxin Huang, Zhen Wu, Guibin Wang, Tengyu Du, Lei Jia Baidu Inc. | arXiv:2606.23050 | Jun 2026
核心问题
现有端到端 OCR 模型(如 DeepSeek OCR)用 LLM 作解码器,利用语言先验提升精度,但代价是输出序列增长导致 KV cache 线性膨胀,推理速度持续下降。人类在长程抄写任务中效率不降,这是一个根本性的架构瓶颈。
核心方案:Reference Sliding Window Attention (R-SWA)
提出 R-SWA — 一种模仿人类解析工作记忆的注意力机制:
- 每个生成的 token 关注全部参考 token(视觉 token + prompt)+ 前 n 个输出 token(默认 n=128)
- 参考 token 不参与状态转移,避免视觉特征逐渐模糊
- KV cache 保持恒定大小 Lm + n,不随解码长度增长
- 整个解码过程推理速度(TPS)和 GPU 内存恒定
关键结果
- 以 DeepSeek OCR 为基线,替换所有 decoder attention 为 R-SWA
- OmniDocBench v1.5:93% Overall,比 DeepSeek OCR 基线高 6pp
- OmniDocBench v1.6:与 SOTA 持平(93.54%)
- 长程解析:2-40+ 页书籍,Distinct-n > 96%,Edit Distance < 0.11
- 推理效率:6000 token 时 TPS 比 DeepSeek OCR 高 35%
- 3B 参数,MoE 架构,激活仅 500M
局限性
受限于 prefill 长度(当前 32K),不能真正无限解析。短期方向:训练 128K 上下文;长期方向:构建 prefill pool 模拟翻页效果。
泛化性
R-SWA 是通用的解析注意力机制 — 除 OCR 外,同样适用于 ASR、翻译等基于参考的长程任务。