59 lines
3.1 KiB
Markdown
59 lines
3.1 KiB
Markdown
---
|
||
title: "IntrAgent: Content-Grounded Literature Information Retrieval"
|
||
type: paper
|
||
arxiv: "2604.22861"
|
||
authors: "Fengbo Ma, Zixin Rao, Xiaoting Li, Zhetao Chen, Hongyue Sun, Yiping Zhao, Xianyan Chen, Zhen Xiang"
|
||
venue: "arXiv 2026"
|
||
created: 2026-06-04
|
||
tags: [llm-agent, information-retrieval, scientific-literature, rag, hallucination-mitigation]
|
||
code: "https://github.com/FengboMa/IntrAgent"
|
||
---
|
||
|
||
# IntrAgent: Content-Grounded Literature Information Retrieval
|
||
|
||
**核心问题**:如何从科学文献中精确、高效地提取信息,且严格锚定于文献内容,避免幻觉?
|
||
|
||
## 问题定义
|
||
|
||
论文提出了 **[[intraview|IntraView]]** 任务:给定一篇科学文献和一个信息检索查询,从文献中提取并综合信息,忠实于所提供的内容。与一般的 [[content-question-answering|CQA]] 不同,IntraView 要求:(1) 提供完整文献而非预选段落,(2) 处理需要跨节交叉引用的领域特定查询,(3) 当信息不存在时明确承认而非编造。
|
||
|
||
## 方法论:IntrAgent
|
||
|
||
[[intragent]] 模拟人类阅读文献获取信息的行为——先定位相关章节,再逐步提取关键细节。包含两阶段管道:
|
||
|
||
### 阶段一:[[section-ranking|章节排序]]
|
||
|
||
1. **章节标题解析**:通过 [[mineru]] 将 PDF 文献转换为 Markdown 格式
|
||
2. **[[hierarchy-preservation|层级保持]]**:LLM 推导章节层级关系,构建章节树
|
||
3. **推理排序**:基于结构感知推理对章节按相关性排序
|
||
|
||
### 阶段二:[[iterative-reading|迭代阅读]]
|
||
|
||
- **重排序章节访问**:按相关性降序依次读取章节
|
||
- **章节细节提取**:提取术语、数值、实验设置、统计指标等关键细节
|
||
- **[[sufficiency-check|充分性检查]]**:LLM 判断已积累信息是否足以回答问题——这是抑制幻觉的关键机制
|
||
- **三种阅读风格**:保守型、平衡型(默认)、激进型——控制操作开销
|
||
- **最终答案合成**:从累积的细节中综合生成答案
|
||
|
||
## 评估基准
|
||
|
||
[[intrabench|IntraBench]]:315 个测试实例,覆盖物理、地球科学、公共卫生、工程、材料科学 5 个 STEM 领域。采用 LLM 锚定的多选题评估方式处理科学术语的同义词/缩写挑战。
|
||
|
||
## 核心结果
|
||
|
||
- 在 7 个 backbone LLM 上,IntrAgent 平均比 SOTA RAG 和研究 Agent baseline 高 13.2% 跨领域准确率
|
||
- 结构知识(章节层级)是准确章节排序的关键——仅靠语义相似度不足
|
||
- [[sufficiency-check|充分性检查]] 同时防止幻觉(证据不足时过早回答)和过度阅读
|
||
|
||
## 设计启示
|
||
|
||
> 从"平面检索-生成"到"结构感知的渐进式阅读"——IntrAgent 证明,模仿人类阅读行为的 agent 设计能显著提升科学文献信息检索的准确性和忠实性。
|
||
|
||
## 相关概念
|
||
|
||
- [[rag|RAG]] — 传统检索增强生成 vs 结构感知推理排序
|
||
- [[hallucination-mitigation]] — 充分性检查作为幻觉抑制机制
|
||
- [[content-grounded-retrieval]] — 内容锚定检索的范式要求
|
||
- [[scientific-literature-qa]] — 科学文献问答的任务空间
|
||
- [[agent-harness-engineering]] — Agent 设计方法论
|