SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.8 KiB

Raw Blame History

title, created, updated, type, paper

title	created	updated	type	paper
Review: Unlimited OCR Works	2026-06-24	2026-06-24	review	unlimited-ocr-works-2026

📌 基本信息

论文标题：Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing
作者：Youyang Yin, Huanhuan Liu*, YY†, et al.（Baidu Inc.）
领域：cs.CV / cs.CL（OCR、注意力机制、高效推理）
arXiv ID：2606.23050 | 添加时间：2026-06-24
代码：https://github.com/baidu/Unlimited-OCR

🎯 核心概念

Reference Sliding Window Attention (R-SWA) — 模仿人类解析工作记忆的注意力机制：token 关注全部参考 token + 前 n 个输出 token，参考 token 不参与状态转移，KV cache 恒定
Constant KV Cache — R-SWA 的核心数学性质：KV cache = Lm + n（有界常数），与标准 MHA 的 O(T) 线性增长形成根本性对比
Long-Horizon Parsing — 一次前向解析数十页文档的能力，区别于逐页 for-loop 的外部调度模式
DeepEncoder — 16× 视觉 token 压缩的编码器（级联窗口注意 ViT + 全局注意），决定 prefill 长度上限
DeepSeek OCR — 基线模型，DeepEncoder + MoE Decoder (3B/500M)，标准 MHA 导致 KV cache 线性膨胀

🔗 概念网络

核心连接：

R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing（注意力机制 → 数学性质 → 能力涌现）
R-SWA ↔ DeepEncoder（解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点）
Unlimited OCR ↔ DeepSeek OCR（继承 DeepEncoder，替换 MHA → R-SWA）

扩展网络：连接到 kv-cache、mixture-of-experts、flash-attention、flash-attention-3、rolling-kv-cache、long-horizon-utility、long-horizon-evaluation 等已有概念

新增概念：10 个（8 核心 + 2 stub：megatron-lm, sglang）

📚 Wiki 集成

新增页面：11 个（1 论文 + 10 概念）
复用已有概念：5 个（kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache）
链接密度：核心概念平均 4+ 双向链接
总规模：1155 → 1167 页

💡 关键洞察

认知启发的架构极简 — R-SWA 的本质洞察是：人类长程抄写时不需要全量历史，仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损（"lossless"），证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。
从 O(T) 到 O(1) 的相变 — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维，转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示：恒定资源的处理能力比可扩展但衰减的性能更有生产价值。