1.4 KiB
1.4 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Domain-Specific Evaluation / 领域特定评估 | 2026-05-14 | concept |
|
|
Domain-Specific Evaluation
领域特定评估是 delegate-52 中每个领域实现自定义解析器和相似度评分函数的方法论。52 个领域各有独立的评估逻辑。
通用流水线
原始文档 → 领域解析器 → 结构化表示 → 相似度评分 → [0,1]
设计原则
语义敏感性
表面变化不影响分数(如 200g vs 0.2kg、材料列表顺序),但语义变化严重影响分数(如 200g vs 800g)。
组件化加权
每个领域的评分由多个组件加权组合,权重通过消融实验校准。例如 Recipe:
- 材料列表 40%(匈牙利匹配名字)
- 步骤 40%(序列文本相似度)
- 提示 20%(二分图匹配)
免参考答案
通过 backtranslation-round-trip-relay 与种子文档比较,无需人工标注。
实现挑战
为 52 个领域实现鲁棒的语义等价是方法论的核心。通用方法(Levenshtein 距离、语义嵌入、LLM-as-a-judge)最多捕获 25% 的方差,远不足以替代自定义解析器。
相关概念
- delegate-52 — 52 个领域特定评估的集合
- semantic-equivalence — 评估目标
- backtranslation-round-trip-relay — 评估循环