36 lines
1.4 KiB
Markdown
36 lines
1.4 KiB
Markdown
---
|
||
title: "minerU — PDF-to-Markdown for Scientific Literature"
|
||
type: concept
|
||
created: 2026-06-04
|
||
tags: [pdf-parsing, document-processing, tool, open-source]
|
||
sources: ["ma-intragent-2026"]
|
||
---
|
||
|
||
# minerU
|
||
|
||
**定义**:minerU 是一个用于科学文献 PDF 解析的开源视觉模型,能够将 PDF 文档转换为结构化 Markdown 格式,同时保留章节层级、表格、公式和图片信息。
|
||
|
||
## 在 IntrAgent 中的角色
|
||
|
||
[[intragent|IntrAgent]] 使用 minerU 作为 PDF 预处理管道的第一步:
|
||
1. 将输入文献 PDF 转换为 Markdown `C'`
|
||
2. 统一添加 `#` 和 `##` 标记
|
||
3. 为后续的 [[section-ranking|章节排序]] 和 [[iterative-reading|迭代阅读]] 提供结构化输入
|
||
|
||
## 能力
|
||
|
||
- **布局检测**:识别章节标题、段落、表格、图片区域
|
||
- **章节识别**:自动提取章节层级结构
|
||
- **公式处理**:保留 LaTeX 数学公式
|
||
- **表格提取**:结构化表格数据
|
||
|
||
## 重要性
|
||
|
||
在科学文献处理管道中,PDF → 结构化文本的转换质量直接决定了后续推理的准确率。minerU 的视觉模型方法比传统的规则式 PDF 解析(如 pdftotext)能更好地保留文档结构。
|
||
|
||
## 相关概念
|
||
|
||
- [[section-ranking]] — 使用 minerU 输出的章节标题
|
||
- [[hierarchy-preservation]] — 使用 minerU 输出的层级信息
|
||
- [[pdf-processing]] — 更广泛的 PDF 处理工具和方法
|