Files
myWiki/concepts/intrabench.md

49 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "IntraBench — Benchmark for Content-Grounded Literature QA"
type: concept
created: 2026-06-04
tags: [benchmark, evaluation, scientific-literature, information-retrieval]
sources: ["ma-intragent-2026"]
dataset: "https://huggingface.co/datasets/IntrAgent/IntraBench"
---
# IntraBench
**定义**:首个专门评估 [[intraview|IntraView]] 任务的基准测试集,由 [[ma-intragent-2026|IntrAgent]] 论文引入。
## 规模与覆盖
- **315 个测试实例**
- **5 个 STEM 领域**:物理、地球科学、公共卫生、工程、材料科学
- 每个实例:一篇完整科学论文 + 专家撰写的查询 + 多选题选项
## 与已有基准的对比
| 基准 | 实例数 | 领域数 | 领域范围 |
|------|--------|--------|---------|
| LitQA | 50 | 1 | 生物 |
| LitQA2 | 248 | 1 | 生物 |
| **IntraBench** | **315** | **5** | **物理+地球+公卫+工程+材料** |
## 评估方法LLM 锚定多选题评估
IntraBench 采用独特的评估策略:
1. **生成自由回答**:系统产出简短答案(不提供选项)
2. **LLM 映射**LLM 将自由回答映射到最相关的多选题选项
3. **处理同义词/缩写**LLM 能识别等价概念(如 AgNP = 银纳米颗粒)
4. **缺失处理**:无法映射时标记为"以上皆非"
与传统字符串匹配BLEU/ROUGE相比这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。
## 评估的其他方面
- **跨领域迁移**:同一方法在 5 个领域的平均表现
- **Backbone LLM 鲁棒性**7 种不同 backbone LLM 下的性能稳定性
- **组件消融**:层级保持、充分性检查、置信度模式的独立贡献
## 相关概念
- [[intraview|IntraView]] — 该基准所评估的任务
- [[intragent|IntrAgent]] — 创建该基准的 Agent 框架
- [[scientific-literature-qa]] — 科学文献 QA 评估的更广领域