20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/end-to-end-ocr.md
+++ b/concepts/end-to-end-ocr.md
@@ -0,0 +1,38 @@
+---
+title: "End-to-End OCR"
+created: 2026-06-24
+updated: 2026-06-24
+type: concept
+tags: ["ocr", "end-to-end", "vlm", "document-parsing"]
+sources:
+  - "[[unlimited-ocr-works-2026]]"
+---
+
+# End-to-End OCR
+
+End-to-End OCR 是一种将文本检测和识别合并为单一统一模型的 OCR 范式，利用 VLM/LLM 的强大解码能力，在单次前向传播中解析整页内容。
+
+## 与 Pipeline 范式的对比
+
+| 维度 | Pipeline OCR | End-to-End OCR |
+|------|-------------|----------------|
+| 架构 | 检测模型 + 多识别模型 + 启发式策略 | 单一统一模型 |
+| 解码次数 | 多次（检测→裁剪→识别） | 单次 |
+| 模型要求 | 低 | 高（需更大模型容量） |
+| 训练难度 | 低 | 高 |
+| 对 VLM 发展的启发 | 有限 | 可直接推动通用 VLM 进步 |
+
+## 核心模块
+
+1. **High-compression Encoder**（如 [[deepencoder]]）：提取并压缩图像信息，决定解码效率的上限
+2. **High-efficiency Decoder**（如 R-SWA）：直接影响推理成本和生成长度上限
+
+## 当前 SOTA
+
+Unlimited OCR（v1.5: 93.23%, v1.6: 93.54%）、DeepSeek OCR 2、Qianfan-OCR、Logics-Parsing-v2 等。
+
+## 参考
+- [[unlimited-ocr-works-2026]]
+- [[deepseek-ocr]]
+- [[deepencoder]]
+- [[omnidocbench]]