Files
myWiki/concepts/domain-specific-evaluation.md

42 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Domain-Specific Evaluation / 领域特定评估"
created: 2026-05-14
type: concept
tags: ["evaluation", "parsing", "domain-adaptation", "semantic-equivalence"]
sources: ["https://arxiv.org/abs/2604.15597"]
---
# Domain-Specific Evaluation
领域特定评估是 [[delegate-52]] 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。
## 通用流水线
```
原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]
```
## 设计原则
### 语义敏感性
表面变化不影响分数(如 `200g` vs `0.2kg`、材料列表顺序),但语义变化严重影响分数(如 `200g` vs `800g`)。
### 组件化加权
每个领域的评分由多个组件加权组合,权重通过消融实验校准。例如 Recipe
- 材料列表 40%(匈牙利匹配名字)
- 步骤 40%(序列文本相似度)
- 提示 20%(二分图匹配)
### 免参考答案
通过 [[backtranslation-round-trip-relay]] 与种子文档比较,无需人工标注。
## 实现挑战
为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法Levenshtein 距离、语义嵌入、LLM-as-a-judge**最多捕获 25% 的方差**,远不足以替代自定义解析器。
## 相关概念
- [[delegate-52]] — 52 个领域特定评估的集合
- [[semantic-equivalence]] — 评估目标
- [[backtranslation-round-trip-relay]] — 评估循环