1.9 KiB
1.9 KiB
title, created, type, tags, sources
| title | created | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Semantic Equivalence / 语义等价 | 2026-05-14 | concept |
|
|
Semantic Equivalence
语义等价(Semantic Equivalence)是 delegate-52 中评估文档重建质量的核心概念。使用 sim(s, ŝ) ∈ [0, 1] 衡量种子文档和重建文档之间的等价程度。
实现:两步过程
1. 领域特定解析(Domain-Specific Parsing)
将文本文档转换为结构化表示。例如 Recipe 领域:
文本 → parse_recipe() → {
ingredients: [{name, qty, unit}, ...],
steps: [{num, desc}, ...],
tips: [{num, desc}, ...]
}
2. 相似度评分(Similarity Scoring)
比较两个解析后的结构化表示,生成加权分数:
score = 0.4 × IngredientScore + 0.4 × StepScore + 0.2 × TipScore
权重通过消融实验校准,确保对内容丢失或损坏的比例敏感性。
设计优势
- 语义敏感:200g vs 0.2kg 视为等价(单位转换不影响分数)
- 错误敏感:200g vs 800g 严重扣分(量级变化影响分数)
- 顺序鲁棒:材料列表打乱不影响分数(匈牙利匹配)
- 免参考答案:无需人工标注 ground truth
与通用方法的对比
| 方法 | 与领域解析器的相关性 | 方差捕获率 |
|---|---|---|
| 通用文本相似度(Levenshtein 等) | 低 | <10% |
| 语义嵌入相似度 | 中 | ~15% |
| GPT 5.4 作为判断者 | 中 | 最多 25% |
| 领域特定解析器 | —(基准) | 100% |
通用方法不足以捕捉细粒度语义变化,52 个领域分别实现解析器是方法论的关键。
相关概念
- delegate-52 — 应用此概念的基准
- domain-specific-evaluation — 每个领域的解析器实现
- backtranslation-round-trip-relay — 依赖此概念的评估循环