Domain-Specific Evaluation

领域特定评估是 delegate-52 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。

通用流水线

原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]

表面变化不影响分数（如 200g vs 0.2kg、材料列表顺序），但语义变化严重影响分数（如 200g vs 800g）。

每个领域的评分由多个组件加权组合，权重通过消融实验校准。例如 Recipe：

通过 backtranslation-round-trip-relay 与种子文档比较，无需人工标注。

为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法（Levenshtein 距离、语义嵌入、LLM-as-a-judge）最多捕获 25% 的方差，远不足以替代自定义解析器。