title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| End-to-End OCR |
2026-06-24 |
2026-06-24 |
concept |
| ocr |
| end-to-end |
| vlm |
| document-parsing |
|
|
End-to-End OCR
End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式,利用 VLM/LLM 的强大解码能力,在单次前向传播中解析整页内容。
与 Pipeline 范式的对比
| 维度 |
Pipeline OCR |
End-to-End OCR |
| 架构 |
检测模型 + 多识别模型 + 启发式策略 |
单一统一模型 |
| 解码次数 |
多次(检测→裁剪→识别) |
单次 |
| 模型要求 |
低 |
高(需更大模型容量) |
| 训练难度 |
低 |
高 |
| 对 VLM 发展的启发 |
有限 |
可直接推动通用 VLM 进步 |
核心模块
- High-compression Encoder(如 deepencoder):提取并压缩图像信息,决定解码效率的上限
- High-efficiency Decoder(如 R-SWA):直接影响推理成本和生成长度上限
当前 SOTA
Unlimited OCR(v1.5: 93.23%, v1.6: 93.54%)、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。
参考