1.9 KiB
1.9 KiB
title, type, created, tags, sources, dataset
| title | type | created | tags | sources | dataset | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| IntraBench — Benchmark for Content-Grounded Literature QA | concept | 2026-06-04 |
|
|
https://huggingface.co/datasets/IntrAgent/IntraBench |
IntraBench
定义:首个专门评估 intraview 任务的基准测试集,由 ma-intragent-2026 论文引入。
规模与覆盖
- 315 个测试实例
- 5 个 STEM 领域:物理、地球科学、公共卫生、工程、材料科学
- 每个实例:一篇完整科学论文 + 专家撰写的查询 + 多选题选项
与已有基准的对比
| 基准 | 实例数 | 领域数 | 领域范围 |
|---|---|---|---|
| LitQA | 50 | 1 | 生物 |
| LitQA2 | 248 | 1 | 生物 |
| IntraBench | 315 | 5 | 物理+地球+公卫+工程+材料 |
评估方法:LLM 锚定多选题评估
IntraBench 采用独特的评估策略:
- 生成自由回答:系统产出简短答案(不提供选项)
- LLM 映射:LLM 将自由回答映射到最相关的多选题选项
- 处理同义词/缩写:LLM 能识别等价概念(如 AgNP = 银纳米颗粒)
- 缺失处理:无法映射时标记为"以上皆非"
与传统字符串匹配(BLEU/ROUGE)相比,这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。
评估的其他方面
- 跨领域迁移:同一方法在 5 个领域的平均表现
- Backbone LLM 鲁棒性:7 种不同 backbone LLM 下的性能稳定性
- 组件消融:层级保持、充分性检查、置信度模式的独立贡献
相关概念
- intraview — 该基准所评估的任务
- intragent — 创建该基准的 Agent 框架
- scientific-literature-qa — 科学文献 QA 评估的更广领域