661 B
661 B
title, type, created, tags
| title | type | created | tags | ||||
|---|---|---|---|---|---|---|---|
| PDF Processing | concept | 2026-06-04 |
|
PDF Processing(PDF 处理)
定义:从 PDF 文档中提取结构化信息的工具和方法谱系,涵盖文本提取、布局解析、表格识别和公式处理。
方法分类
| 方法 | 代表工具 | 特点 |
|---|---|---|
| 规则式 | pdftotext | 简单快速,但丢失结构 |
| 视觉模型 | mineru | 保留布局和层级结构 |
| OCR | Tesseract | 处理扫描文档 |
| 深度学习 | Nougat, Grobid | 学术文献专项优化 |
相关概念
- mineru — 视觉模型驱动的 PDF 解析