20260514:增加新内容
This commit is contained in:
41
concepts/domain-specific-evaluation.md
Normal file
41
concepts/domain-specific-evaluation.md
Normal file
@@ -0,0 +1,41 @@
|
||||
---
|
||||
title: "Domain-Specific Evaluation / 领域特定评估"
|
||||
created: 2026-05-14
|
||||
type: concept
|
||||
tags: ["evaluation", "parsing", "domain-adaptation", "semantic-equivalence"]
|
||||
sources: ["https://arxiv.org/abs/2604.15597"]
|
||||
---
|
||||
|
||||
# Domain-Specific Evaluation
|
||||
|
||||
领域特定评估是 [[delegate-52]] 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。
|
||||
|
||||
## 通用流水线
|
||||
|
||||
```
|
||||
原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]
|
||||
```
|
||||
|
||||
## 设计原则
|
||||
|
||||
### 语义敏感性
|
||||
表面变化不影响分数(如 `200g` vs `0.2kg`、材料列表顺序),但语义变化严重影响分数(如 `200g` vs `800g`)。
|
||||
|
||||
### 组件化加权
|
||||
每个领域的评分由多个组件加权组合,权重通过消融实验校准。例如 Recipe:
|
||||
- 材料列表 40%(匈牙利匹配名字)
|
||||
- 步骤 40%(序列文本相似度)
|
||||
- 提示 20%(二分图匹配)
|
||||
|
||||
### 免参考答案
|
||||
通过 [[backtranslation-round-trip-relay]] 与种子文档比较,无需人工标注。
|
||||
|
||||
## 实现挑战
|
||||
|
||||
为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法(Levenshtein 距离、语义嵌入、LLM-as-a-judge)**最多捕获 25% 的方差**,远不足以替代自定义解析器。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[delegate-52]] — 52 个领域特定评估的集合
|
||||
- [[semantic-equivalence]] — 评估目标
|
||||
- [[backtranslation-round-trip-relay]] — 评估循环
|
||||
Reference in New Issue
Block a user