Files
myWiki/papers/ma-intragent-2026.md

3.1 KiB
Raw Blame History

title, type, arxiv, authors, venue, created, tags, code
title type arxiv authors venue created tags code
IntrAgent: Content-Grounded Literature Information Retrieval paper 2604.22861 Fengbo Ma, Zixin Rao, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen, Zhen Xiang arXiv 2026 2026-06-04
llm-agent
information-retrieval
scientific-literature
rag
hallucination-mitigation
https://github.com/FengboMa/IntrAgent

IntrAgent: Content-Grounded Literature Information Retrieval

核心问题:如何从科学文献中精确、高效地提取信息,且严格锚定于文献内容,避免幻觉?

问题定义

论文提出了 intraview 任务:给定一篇科学文献和一个信息检索查询,从文献中提取并综合信息,忠实于所提供的内容。与一般的 content-question-answering 不同IntraView 要求:(1) 提供完整文献而非预选段落,(2) 处理需要跨节交叉引用的领域特定查询,(3) 当信息不存在时明确承认而非编造。

方法论IntrAgent

intragent 模拟人类阅读文献获取信息的行为——先定位相关章节,再逐步提取关键细节。包含两阶段管道:

阶段一:section-ranking

  1. 章节标题解析:通过 mineru 将 PDF 文献转换为 Markdown 格式
  2. hierarchy-preservationLLM 推导章节层级关系,构建章节树
  3. 推理排序:基于结构感知推理对章节按相关性排序

阶段二:iterative-reading

  • 重排序章节访问:按相关性降序依次读取章节
  • 章节细节提取:提取术语、数值、实验设置、统计指标等关键细节
  • sufficiency-checkLLM 判断已积累信息是否足以回答问题——这是抑制幻觉的关键机制
  • 三种阅读风格:保守型、平衡型(默认)、激进型——控制操作开销
  • 最终答案合成:从累积的细节中综合生成答案

评估基准

intrabench315 个测试实例,覆盖物理、地球科学、公共卫生、工程、材料科学 5 个 STEM 领域。采用 LLM 锚定的多选题评估方式处理科学术语的同义词/缩写挑战。

核心结果

  • 在 7 个 backbone LLM 上IntrAgent 平均比 SOTA RAG 和研究 Agent baseline 高 13.2% 跨领域准确率
  • 结构知识(章节层级)是准确章节排序的关键——仅靠语义相似度不足
  • sufficiency-check 同时防止幻觉(证据不足时过早回答)和过度阅读

设计启示

从"平面检索-生成"到"结构感知的渐进式阅读"——IntrAgent 证明,模仿人类阅读行为的 agent 设计能显著提升科学文献信息检索的准确性和忠实性。

相关概念