IntrAgent: Content-Grounded Literature Information Retrieval

核心问题：如何从科学文献中精确、高效地提取信息，且严格锚定于文献内容，避免幻觉？

问题定义

论文提出了 intraview 任务：给定一篇科学文献和一个信息检索查询，从文献中提取并综合信息，忠实于所提供的内容。与一般的 content-question-answering 不同，IntraView 要求：(1) 提供完整文献而非预选段落，(2) 处理需要跨节交叉引用的领域特定查询，(3) 当信息不存在时明确承认而非编造。

方法论：IntrAgent

intragent 模拟人类阅读文献获取信息的行为——先定位相关章节，再逐步提取关键细节。包含两阶段管道：

阶段一：section-ranking

章节标题解析：通过 mineru 将 PDF 文献转换为 Markdown 格式
hierarchy-preservation：LLM 推导章节层级关系，构建章节树
推理排序：基于结构感知推理对章节按相关性排序

阶段二：iterative-reading

重排序章节访问：按相关性降序依次读取章节
章节细节提取：提取术语、数值、实验设置、统计指标等关键细节
sufficiency-check：LLM 判断已积累信息是否足以回答问题——这是抑制幻觉的关键机制
三种阅读风格：保守型、平衡型（默认）、激进型——控制操作开销
最终答案合成：从累积的细节中综合生成答案

评估基准

intrabench：315 个测试实例，覆盖物理、地球科学、公共卫生、工程、材料科学 5 个 STEM 领域。采用 LLM 锚定的多选题评估方式处理科学术语的同义词/缩写挑战。

核心结果

在 7 个 backbone LLM 上，IntrAgent 平均比 SOTA RAG 和研究 Agent baseline 高 13.2% 跨领域准确率
结构知识（章节层级）是准确章节排序的关键——仅靠语义相似度不足
sufficiency-check 同时防止幻觉（证据不足时过早回答）和过度阅读

设计启示

从"平面检索-生成"到"结构感知的渐进式阅读"——IntrAgent 证明，模仿人类阅读行为的 agent 设计能显著提升科学文献信息检索的准确性和忠实性。

3.1 KiB Raw Blame History Unescape Escape