20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/mineru.md
+++ b/concepts/mineru.md
@@ -0,0 +1,35 @@
+---
+title: "minerU — PDF-to-Markdown for Scientific Literature"
+type: concept
+created: 2026-06-04
+tags: [pdf-parsing, document-processing, tool, open-source]
+sources: ["ma-intragent-2026"]
+---
+
+# minerU
+
+**定义**：minerU 是一个用于科学文献 PDF 解析的开源视觉模型，能够将 PDF 文档转换为结构化 Markdown 格式，同时保留章节层级、表格、公式和图片信息。
+
+## 在 IntrAgent 中的角色
+
+[[intragent|IntrAgent]] 使用 minerU 作为 PDF 预处理管道的第一步：
+1. 将输入文献 PDF 转换为 Markdown `C'`
+2. 统一添加 `#` 和 `##` 标记
+3. 为后续的 [[section-ranking|章节排序]] 和 [[iterative-reading|迭代阅读]] 提供结构化输入
+
+## 能力
+
+- **布局检测**：识别章节标题、段落、表格、图片区域
+- **章节识别**：自动提取章节层级结构
+- **公式处理**：保留 LaTeX 数学公式
+- **表格提取**：结构化表格数据
+
+## 重要性
+
+在科学文献处理管道中，PDF → 结构化文本的转换质量直接决定了后续推理的准确率。minerU 的视觉模型方法比传统的规则式 PDF 解析（如 pdftotext）能更好地保留文档结构。
+
+## 相关概念
+
+- [[section-ranking]] — 使用 minerU 输出的章节标题
+- [[hierarchy-preservation]] — 使用 minerU 输出的层级信息
+- [[pdf-processing]] — 更广泛的 PDF 处理工具和方法