39 lines
1.2 KiB
Markdown
39 lines
1.2 KiB
Markdown
---
|
||
title: "End-to-End OCR"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: concept
|
||
tags: ["ocr", "end-to-end", "vlm", "document-parsing"]
|
||
sources:
|
||
- "[[unlimited-ocr-works-2026]]"
|
||
---
|
||
|
||
# End-to-End OCR
|
||
|
||
End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式,利用 VLM/LLM 的强大解码能力,在单次前向传播中解析整页内容。
|
||
|
||
## 与 Pipeline 范式的对比
|
||
|
||
| 维度 | Pipeline OCR | End-to-End OCR |
|
||
|------|-------------|----------------|
|
||
| 架构 | 检测模型 + 多识别模型 + 启发式策略 | 单一统一模型 |
|
||
| 解码次数 | 多次(检测→裁剪→识别) | 单次 |
|
||
| 模型要求 | 低 | 高(需更大模型容量) |
|
||
| 训练难度 | 低 | 高 |
|
||
| 对 VLM 发展的启发 | 有限 | 可直接推动通用 VLM 进步 |
|
||
|
||
## 核心模块
|
||
|
||
1. **High-compression Encoder**(如 [[deepencoder]]):提取并压缩图像信息,决定解码效率的上限
|
||
2. **High-efficiency Decoder**(如 R-SWA):直接影响推理成本和生成长度上限
|
||
|
||
## 当前 SOTA
|
||
|
||
Unlimited OCR(v1.5: 93.23%, v1.6: 93.54%)、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。
|
||
|
||
## 参考
|
||
- [[unlimited-ocr-works-2026]]
|
||
- [[deepseek-ocr]]
|
||
- [[deepencoder]]
|
||
- [[omnidocbench]]
|