SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.2 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

End-to-End OCR

2026-06-24

2026-06-24

concept

ocr

end-to-end

vlm

document-parsing

unlimited-ocr-works-2026

End-to-End OCR

End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式，利用 VLM/LLM 的强大解码能力，在单次前向传播中解析整页内容。

与 Pipeline 范式的对比

维度	Pipeline OCR	End-to-End OCR
架构	检测模型 + 多识别模型 + 启发式策略	单一统一模型
解码次数	多次（检测→裁剪→识别）	单次
模型要求	低	高（需更大模型容量）
训练难度	低	高
对 VLM 发展的启发	有限	可直接推动通用 VLM 进步

核心模块

High-compression Encoder（如 deepencoder）：提取并压缩图像信息，决定解码效率的上限
High-efficiency Decoder（如 R-SWA）：直接影响推理成本和生成长度上限

当前 SOTA

Unlimited OCR（v1.5: 93.23%, v1.6: 93.54%）、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。

参考