20260625:很多新内容
This commit is contained in:
45
reviews/unlimited-ocr-works-20260624.md
Normal file
45
reviews/unlimited-ocr-works-20260624.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Review: Unlimited OCR Works"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: review
|
||||
paper: "[[unlimited-ocr-works-2026]]"
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
- **论文标题**:Unlimited OCR Works: Welcome the Era of One-shot Long-horizon Parsing
|
||||
- **作者**:Youyang Yin, Huanhuan Liu*, YY†, et al.(Baidu Inc.)
|
||||
- **领域**:cs.CV / cs.CL(OCR、注意力机制、高效推理)
|
||||
- **arXiv ID**:2606.23050 | 添加时间:2026-06-24
|
||||
- **代码**:https://github.com/baidu/Unlimited-OCR
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **Reference Sliding Window Attention (R-SWA)** — 模仿人类解析工作记忆的注意力机制:token 关注全部参考 token + 前 n 个输出 token,参考 token 不参与状态转移,KV cache 恒定
|
||||
2. **Constant KV Cache** — R-SWA 的核心数学性质:KV cache = Lm + n(有界常数),与标准 MHA 的 O(T) 线性增长形成根本性对比
|
||||
3. **Long-Horizon Parsing** — 一次前向解析数十页文档的能力,区别于逐页 for-loop 的外部调度模式
|
||||
4. **DeepEncoder** — 16× 视觉 token 压缩的编码器(级联窗口注意 ViT + 全局注意),决定 prefill 长度上限
|
||||
5. **DeepSeek OCR** — 基线模型,DeepEncoder + MoE Decoder (3B/500M),标准 MHA 导致 KV cache 线性膨胀
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
- R-SWA ↔ Constant KV Cache ↔ Long-Horizon Parsing(注意力机制 → 数学性质 → 能力涌现)
|
||||
- R-SWA ↔ DeepEncoder(解码器效率 + 编码器压缩率 = 长程 OCR 的两个支点)
|
||||
- Unlimited OCR ↔ DeepSeek OCR(继承 DeepEncoder,替换 MHA → R-SWA)
|
||||
|
||||
**扩展网络**:连接到 [[kv-cache]]、[[mixture-of-experts]]、[[flash-attention]]、[[flash-attention-3]]、[[rolling-kv-cache]]、[[long-horizon-utility]]、[[long-horizon-evaluation]] 等已有概念
|
||||
|
||||
**新增概念**:10 个(8 核心 + 2 stub:megatron-lm, sglang)
|
||||
|
||||
# 📚 Wiki 集成
|
||||
- 新增页面:11 个(1 论文 + 10 概念)
|
||||
- 复用已有概念:5 个(kv-cache, mixture-of-experts, flash-attention, flash-attention-3, rolling-kv-cache)
|
||||
- 链接密度:核心概念平均 4+ 双向链接
|
||||
- 总规模:1155 → 1167 页
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **认知启发的架构极简** — R-SWA 的本质洞察是:人类长程抄写时不需要全量历史,仅需附近上下文 + 永久参考。将所有 MHA 替换为 R-SWA 后性能无损("lossless"),证明 soft forgetting 通过滑动窗口传递信息已足够。这是「少即是多」的 elegant design。
|
||||
|
||||
2. **从 O(T) 到 O(1) 的相变** — KV cache 从线性增长到有界常数不是量变而是质变。它使 OCR 从「延长上下文需要更多硬件」的 scaling 思维,转向「恒定资源处理变长输入」的 engineering 思维。这一范式对 RAG、Agent 等需要长程处理的场景有直接启示:恒定资源的处理能力比可扩展但衰减的性能更有生产价值。
|
||||
Reference in New Issue
Block a user