20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/domain-specific-evaluation.md
+++ b/concepts/domain-specific-evaluation.md
@@ -0,0 +1,41 @@
+---
+title: "Domain-Specific Evaluation / 领域特定评估"
+created: 2026-05-14
+type: concept
+tags: ["evaluation", "parsing", "domain-adaptation", "semantic-equivalence"]
+sources: ["https://arxiv.org/abs/2604.15597"]
+---
+
+# Domain-Specific Evaluation
+
+领域特定评估是 [[delegate-52]] 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。
+
+## 通用流水线
+
+```
+原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]
+```
+
+## 设计原则
+
+### 语义敏感性
+表面变化不影响分数（如 `200g` vs `0.2kg`、材料列表顺序），但语义变化严重影响分数（如 `200g` vs `800g`）。
+
+### 组件化加权
+每个领域的评分由多个组件加权组合，权重通过消融实验校准。例如 Recipe：
+- 材料列表 40%（匈牙利匹配名字）
+- 步骤 40%（序列文本相似度）
+- 提示 20%（二分图匹配）
+
+### 免参考答案
+通过 [[backtranslation-round-trip-relay]] 与种子文档比较，无需人工标注。
+
+## 实现挑战
+
+为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法（Levenshtein 距离、语义嵌入、LLM-as-a-judge）**最多捕获 25% 的方差**，远不足以替代自定义解析器。
+
+## 相关概念
+
+- [[delegate-52]] — 52 个领域特定评估的集合
+- [[semantic-equivalence]] — 评估目标
+- [[backtranslation-round-trip-relay]] — 评估循环