Files
myWiki/concepts/mineru.md

36 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "minerU — PDF-to-Markdown for Scientific Literature"
type: concept
created: 2026-06-04
tags: [pdf-parsing, document-processing, tool, open-source]
sources: ["ma-intragent-2026"]
---
# minerU
**定义**minerU 是一个用于科学文献 PDF 解析的开源视觉模型,能够将 PDF 文档转换为结构化 Markdown 格式,同时保留章节层级、表格、公式和图片信息。
## 在 IntrAgent 中的角色
[[intragent|IntrAgent]] 使用 minerU 作为 PDF 预处理管道的第一步:
1. 将输入文献 PDF 转换为 Markdown `C'`
2. 统一添加 `#``##` 标记
3. 为后续的 [[section-ranking|章节排序]] 和 [[iterative-reading|迭代阅读]] 提供结构化输入
## 能力
- **布局检测**:识别章节标题、段落、表格、图片区域
- **章节识别**:自动提取章节层级结构
- **公式处理**:保留 LaTeX 数学公式
- **表格提取**:结构化表格数据
## 重要性
在科学文献处理管道中PDF → 结构化文本的转换质量直接决定了后续推理的准确率。minerU 的视觉模型方法比传统的规则式 PDF 解析(如 pdftotext能更好地保留文档结构。
## 相关概念
- [[section-ranking]] — 使用 minerU 输出的章节标题
- [[hierarchy-preservation]] — 使用 minerU 输出的层级信息
- [[pdf-processing]] — 更广泛的 PDF 处理工具和方法