49 lines
1.9 KiB
Markdown
49 lines
1.9 KiB
Markdown
---
|
||
title: "IntraBench — Benchmark for Content-Grounded Literature QA"
|
||
type: concept
|
||
created: 2026-06-04
|
||
tags: [benchmark, evaluation, scientific-literature, information-retrieval]
|
||
sources: ["ma-intragent-2026"]
|
||
dataset: "https://huggingface.co/datasets/IntrAgent/IntraBench"
|
||
---
|
||
|
||
# IntraBench
|
||
|
||
**定义**:首个专门评估 [[intraview|IntraView]] 任务的基准测试集,由 [[ma-intragent-2026|IntrAgent]] 论文引入。
|
||
|
||
## 规模与覆盖
|
||
|
||
- **315 个测试实例**
|
||
- **5 个 STEM 领域**:物理、地球科学、公共卫生、工程、材料科学
|
||
- 每个实例:一篇完整科学论文 + 专家撰写的查询 + 多选题选项
|
||
|
||
## 与已有基准的对比
|
||
|
||
| 基准 | 实例数 | 领域数 | 领域范围 |
|
||
|------|--------|--------|---------|
|
||
| LitQA | 50 | 1 | 生物 |
|
||
| LitQA2 | 248 | 1 | 生物 |
|
||
| **IntraBench** | **315** | **5** | **物理+地球+公卫+工程+材料** |
|
||
|
||
## 评估方法:LLM 锚定多选题评估
|
||
|
||
IntraBench 采用独特的评估策略:
|
||
1. **生成自由回答**:系统产出简短答案(不提供选项)
|
||
2. **LLM 映射**:LLM 将自由回答映射到最相关的多选题选项
|
||
3. **处理同义词/缩写**:LLM 能识别等价概念(如 AgNP = 银纳米颗粒)
|
||
4. **缺失处理**:无法映射时标记为"以上皆非"
|
||
|
||
与传统字符串匹配(BLEU/ROUGE)相比,这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。
|
||
|
||
## 评估的其他方面
|
||
|
||
- **跨领域迁移**:同一方法在 5 个领域的平均表现
|
||
- **Backbone LLM 鲁棒性**:7 种不同 backbone LLM 下的性能稳定性
|
||
- **组件消融**:层级保持、充分性检查、置信度模式的独立贡献
|
||
|
||
## 相关概念
|
||
|
||
- [[intraview|IntraView]] — 该基准所评估的任务
|
||
- [[intragent|IntrAgent]] — 创建该基准的 Agent 框架
|
||
- [[scientific-literature-qa]] — 科学文献 QA 评估的更广领域
|