Files
myWiki/reviews/unlimited-ocr-works-20260624.md

46 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Unlimited OCR Works"
created: 2026-06-24
updated: 2026-06-24
type: review
paper: "[[unlimited-ocr-works-2026]]"
---
# 📌 基本信息
- **论文标题**Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing
- **作者**Youyang Yin, Huanhuan Liu*, YY†, et al.Baidu Inc.
- **领域**cs.CV / cs.CLOCR、注意力机制、高效推理
- **arXiv ID**2606.23050 | 添加时间2026-06-24
- **代码**https://github.com/baidu/Unlimited-OCR
# 🎯 核心概念
1. **Reference Sliding Window Attention (R-SWA)** — 模仿人类解析工作记忆的注意力机制token 关注全部参考 token + 前 n 个输出 token参考 token 不参与状态转移KV cache 恒定
2. **Constant KV Cache** — R-SWA 的核心数学性质KV cache = Lm + n有界常数与标准 MHA 的 O(T) 线性增长形成根本性对比
3. **Long-Horizon Parsing** — 一次前向解析数十页文档的能力,区别于逐页 for-loop 的外部调度模式
4. **DeepEncoder** — 16× 视觉 token 压缩的编码器(级联窗口注意 ViT + 全局注意),决定 prefill 长度上限
5. **DeepSeek OCR** — 基线模型DeepEncoder + MoE Decoder (3B/500M),标准 MHA 导致 KV cache 线性膨胀
# 🔗 概念网络
**核心连接**
- R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing注意力机制 → 数学性质 → 能力涌现)
- R-SWA ↔ DeepEncoder解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点)
- Unlimited OCR ↔ DeepSeek OCR继承 DeepEncoder替换 MHA → R-SWA
**扩展网络**:连接到 [[kv-cache]]、[[mixture-of-experts]]、[[flash-attention]]、[[flash-attention-3]]、[[rolling-kv-cache]]、[[long-horizon-utility]]、[[long-horizon-evaluation]] 等已有概念
**新增概念**10 个8 核心 + 2 stubmegatron-lm, sglang
# 📚 Wiki 集成
- 新增页面11 个1 论文 + 10 概念)
- 复用已有概念5 个kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache
- 链接密度:核心概念平均 4+ 双向链接
- 总规模1155 → 1167 页
# 💡 关键洞察
1. **认知启发的架构极简** — R-SWA 的本质洞察是:人类长程抄写时不需要全量历史,仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损("lossless"),证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。
2. **从 O(T) 到 O(1) 的相变** — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维,转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示:恒定资源的处理能力比可扩展但衰减的性能更有生产价值。