3.1 KiB
3.1 KiB
title, type, arxiv, authors, venue, created, tags, code
| title | type | arxiv | authors | venue | created | tags | code | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| IntrAgent: Content-Grounded Literature Information Retrieval | paper | 2604.22861 | Fengbo Ma, Zixin Rao, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen, Zhen Xiang | arXiv 2026 | 2026-06-04 |
|
https://github.com/FengboMa/IntrAgent |
IntrAgent: Content-Grounded Literature Information Retrieval
核心问题:如何从科学文献中精确、高效地提取信息,且严格锚定于文献内容,避免幻觉?
问题定义
论文提出了 intraview 任务:给定一篇科学文献和一个信息检索查询,从文献中提取并综合信息,忠实于所提供的内容。与一般的 content-question-answering 不同,IntraView 要求:(1) 提供完整文献而非预选段落,(2) 处理需要跨节交叉引用的领域特定查询,(3) 当信息不存在时明确承认而非编造。
方法论:IntrAgent
intragent 模拟人类阅读文献获取信息的行为——先定位相关章节,再逐步提取关键细节。包含两阶段管道:
阶段一:section-ranking
- 章节标题解析:通过 mineru 将 PDF 文献转换为 Markdown 格式
- hierarchy-preservation:LLM 推导章节层级关系,构建章节树
- 推理排序:基于结构感知推理对章节按相关性排序
阶段二:iterative-reading
- 重排序章节访问:按相关性降序依次读取章节
- 章节细节提取:提取术语、数值、实验设置、统计指标等关键细节
- sufficiency-check:LLM 判断已积累信息是否足以回答问题——这是抑制幻觉的关键机制
- 三种阅读风格:保守型、平衡型(默认)、激进型——控制操作开销
- 最终答案合成:从累积的细节中综合生成答案
评估基准
intrabench:315 个测试实例,覆盖物理、地球科学、公共卫生、工程、材料科学 5 个 STEM 领域。采用 LLM 锚定的多选题评估方式处理科学术语的同义词/缩写挑战。
核心结果
- 在 7 个 backbone LLM 上,IntrAgent 平均比 SOTA RAG 和研究 Agent baseline 高 13.2% 跨领域准确率
- 结构知识(章节层级)是准确章节排序的关键——仅靠语义相似度不足
- sufficiency-check 同时防止幻觉(证据不足时过早回答)和过度阅读
设计启示
从"平面检索-生成"到"结构感知的渐进式阅读"——IntrAgent 证明,模仿人类阅读行为的 agent 设计能显著提升科学文献信息检索的准确性和忠实性。
相关概念
- rag — 传统检索增强生成 vs 结构感知推理排序
- hallucination-mitigation — 充分性检查作为幻觉抑制机制
- content-grounded-retrieval — 内容锚定检索的范式要求
- scientific-literature-qa — 科学文献问答的任务空间
- agent-harness-engineering — Agent 设计方法论