SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, type, created, tags, sources, dataset

title

type

created

tags

sources

dataset

IntraBench — Benchmark for Content-Grounded Literature QA

concept

2026-06-04

benchmark

evaluation

scientific-literature

information-retrieval

ma-intragent-2026

https://huggingface.co/datasets/IntrAgent/IntraBench

IntraBench

定义：首个专门评估 intraview 任务的基准测试集，由 ma-intragent-2026 论文引入。

规模与覆盖

315 个测试实例
5 个 STEM 领域：物理、地球科学、公共卫生、工程、材料科学
每个实例：一篇完整科学论文 + 专家撰写的查询 + 多选题选项

与已有基准的对比

基准	实例数	领域数	领域范围
LitQA	50	1	生物
LitQA2	248	1	生物
IntraBench	315	5	物理+地球+公卫+工程+材料

评估方法：LLM 锚定多选题评估

IntraBench 采用独特的评估策略：

生成自由回答：系统产出简短答案（不提供选项）
LLM 映射：LLM 将自由回答映射到最相关的多选题选项
处理同义词/缩写：LLM 能识别等价概念（如 AgNP = 银纳米颗粒）
缺失处理：无法映射时标记为"以上皆非"

与传统字符串匹配（BLEU/ROUGE）相比，这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。

评估的其他方面

跨领域迁移：同一方法在 5 个领域的平均表现
Backbone LLM 鲁棒性：7 种不同 backbone LLM 下的性能稳定性
组件消融：层级保持、充分性检查、置信度模式的独立贡献

相关概念

intraview — 该基准所评估的任务
intragent — 创建该基准的 Agent 框架
scientific-literature-qa — 科学文献 QA 评估的更广领域