20260617:目前有914 页
This commit is contained in:
23
concepts/pdf-processing.md
Normal file
23
concepts/pdf-processing.md
Normal file
@@ -0,0 +1,23 @@
|
||||
---
|
||||
title: "PDF Processing"
|
||||
type: concept
|
||||
created: 2026-06-04
|
||||
tags: [pdf, document-processing, parsing, ocr]
|
||||
---
|
||||
|
||||
# PDF Processing(PDF 处理)
|
||||
|
||||
**定义**:从 PDF 文档中提取结构化信息的工具和方法谱系,涵盖文本提取、布局解析、表格识别和公式处理。
|
||||
|
||||
## 方法分类
|
||||
|
||||
| 方法 | 代表工具 | 特点 |
|
||||
|------|---------|------|
|
||||
| 规则式 | pdftotext | 简单快速,但丢失结构 |
|
||||
| 视觉模型 | [[mineru]] | 保留布局和层级结构 |
|
||||
| OCR | Tesseract | 处理扫描文档 |
|
||||
| 深度学习 | Nougat, Grobid | 学术文献专项优化 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[mineru]] — 视觉模型驱动的 PDF 解析
|
||||
Reference in New Issue
Block a user