20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/intrabench.md
+++ b/concepts/intrabench.md
@@ -0,0 +1,48 @@
+---
+title: "IntraBench — Benchmark for Content-Grounded Literature QA"
+type: concept
+created: 2026-06-04
+tags: [benchmark, evaluation, scientific-literature, information-retrieval]
+sources: ["ma-intragent-2026"]
+dataset: "https://huggingface.co/datasets/IntrAgent/IntraBench"
+---
+
+# IntraBench
+
+**定义**：首个专门评估 [[intraview|IntraView]] 任务的基准测试集，由 [[ma-intragent-2026|IntrAgent]] 论文引入。
+
+## 规模与覆盖
+
+- **315 个测试实例**
+- **5 个 STEM 领域**：物理、地球科学、公共卫生、工程、材料科学
+- 每个实例：一篇完整科学论文 + 专家撰写的查询 + 多选题选项
+
+## 与已有基准的对比
+
+| 基准 | 实例数 | 领域数 | 领域范围 |
+|------|--------|--------|---------|
+| LitQA | 50 | 1 | 生物 |
+| LitQA2 | 248 | 1 | 生物 |
+| **IntraBench** | **315** | **5** | **物理+地球+公卫+工程+材料** |
+
+## 评估方法：LLM 锚定多选题评估
+
+IntraBench 采用独特的评估策略：
+1. **生成自由回答**：系统产出简短答案（不提供选项）
+2. **LLM 映射**：LLM 将自由回答映射到最相关的多选题选项
+3. **处理同义词/缩写**：LLM 能识别等价概念（如 AgNP = 银纳米颗粒）
+4. **缺失处理**：无法映射时标记为"以上皆非"
+
+与传统字符串匹配（BLEU/ROUGE）相比，这种方法在科学术语评估上准确度更高。实证结果显示 GPT-4.1 的映射与领域专家手动映射一致性达到 63/65。
+
+## 评估的其他方面
+
+- **跨领域迁移**：同一方法在 5 个领域的平均表现
+- **Backbone LLM 鲁棒性**：7 种不同 backbone LLM 下的性能稳定性
+- **组件消融**：层级保持、充分性检查、置信度模式的独立贡献
+
+## 相关概念
+
+- [[intraview|IntraView]] — 该基准所评估的任务
+- [[intragent|IntrAgent]] — 创建该基准的 Agent 框架
+- [[scientific-literature-qa]] — 科学文献 QA 评估的更广领域