20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/pdf-processing.md
+++ b/concepts/pdf-processing.md
@@ -0,0 +1,23 @@
+---
+title: "PDF Processing"
+type: concept
+created: 2026-06-04
+tags: [pdf, document-processing, parsing, ocr]
+---
+
+# PDF Processing（PDF 处理）
+
+**定义**：从 PDF 文档中提取结构化信息的工具和方法谱系，涵盖文本提取、布局解析、表格识别和公式处理。
+
+## 方法分类
+
+| 方法 | 代表工具 | 特点 |
+|------|---------|------|
+| 规则式 | pdftotext | 简单快速，但丢失结构 |
+| 视觉模型 | [[mineru]] | 保留布局和层级结构 |
+| OCR | Tesseract | 处理扫描文档 |
+| 深度学习 | Nougat, Grobid | 学术文献专项优化 |
+
+## 相关概念
+
+- [[mineru]] — 视觉模型驱动的 PDF 解析