1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Long-Horizon Parsing | 2026-06-24 | 2026-06-24 | concept |
|
|
Long-Horizon Parsing
Long-Horizon Parsing 指在单次前向传播中解析多页/长文档的 OCR 能力,区别于传统的逐页 for-loop 处理模式。
问题
现有 OCR 模型采用 page-by-page for-loop 处理,每页重置记忆,将连贯的长程过程碎片化为孤立短任务。人类则在长程抄写中维持连续的认知状态,效率不降。
Unlimited OCR 的方案
通过 R-SWA + DeepEncoder 高压缩率(16×):
- 10K 视觉 token ≈ 20-30 页(1024×1024)
- 10K 视觉 token → ~100K 文本 token 解码
- 恒定 KV cache + 恒定 TPS 支撑全量解码
评估
在 2/5/10/20/40+ 页的书籍、文档、论文测试集上:
- Distinct-n > 96%(内容多样性保持)
- Edit Distance < 0.11(高精度)
与通用 Long-Horizon 的区别
此概念特指解析/转录类任务中的长程能力(OCR/ASR/翻译),不同于强化学习中的 long-horizon planning 或 utility modeling。