Files
myWiki/concepts/intrabench.md

1.9 KiB
Raw Blame History

title, type, created, tags, sources, dataset
title type created tags sources dataset
IntraBench — Benchmark for Content-Grounded Literature QA concept 2026-06-04
benchmark
evaluation
scientific-literature
information-retrieval
ma-intragent-2026
https://huggingface.co/datasets/IntrAgent/IntraBench

IntraBench

定义:首个专门评估 intraview 任务的基准测试集,由 ma-intragent-2026 论文引入。

规模与覆盖

  • 315 个测试实例
  • 5 个 STEM 领域:物理、地球科学、公共卫生、工程、材料科学
  • 每个实例:一篇完整科学论文 + 专家撰写的查询 + 多选题选项

与已有基准的对比

基准 实例数 领域数 领域范围
LitQA 50 1 生物
LitQA2 248 1 生物
IntraBench 315 5 物理+地球+公卫+工程+材料

评估方法LLM 锚定多选题评估

IntraBench 采用独特的评估策略:

  1. 生成自由回答:系统产出简短答案(不提供选项)
  2. LLM 映射LLM 将自由回答映射到最相关的多选题选项
  3. 处理同义词/缩写LLM 能识别等价概念(如 AgNP = 银纳米颗粒)
  4. 缺失处理:无法映射时标记为"以上皆非"

与传统字符串匹配BLEU/ROUGE相比这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。

评估的其他方面

  • 跨领域迁移:同一方法在 5 个领域的平均表现
  • Backbone LLM 鲁棒性7 种不同 backbone LLM 下的性能稳定性
  • 组件消融:层级保持、充分性检查、置信度模式的独立贡献

相关概念