--- title: "Semantic Equivalence / 语义等价" created: 2026-05-14 type: concept tags: ["evaluation", "similarity", "domain-parsing", "reference-free"] sources: ["https://arxiv.org/abs/2604.15597"] --- # Semantic Equivalence 语义等价(Semantic Equivalence)是 [[delegate-52]] 中评估文档重建质量的核心概念。使用 sim(s, ŝ) ∈ [0, 1] 衡量种子文档和重建文档之间的等价程度。 ## 实现:两步过程 ### 1. 领域特定解析(Domain-Specific Parsing) 将文本文档转换为结构化表示。例如 Recipe 领域: ``` 文本 → parse_recipe() → { ingredients: [{name, qty, unit}, ...], steps: [{num, desc}, ...], tips: [{num, desc}, ...] } ``` ### 2. 相似度评分(Similarity Scoring) 比较两个解析后的结构化表示,生成加权分数: ``` score = 0.4 × IngredientScore + 0.4 × StepScore + 0.2 × TipScore ``` 权重通过消融实验校准,确保对内容丢失或损坏的比例敏感性。 ## 设计优势 - **语义敏感**:200g vs 0.2kg 视为等价(单位转换不影响分数) - **错误敏感**:200g vs 800g 严重扣分(量级变化影响分数) - **顺序鲁棒**:材料列表打乱不影响分数(匈牙利匹配) - **免参考答案**:无需人工标注 ground truth ## 与通用方法的对比 | 方法 | 与领域解析器的相关性 | 方差捕获率 | |------|---------------------|-----------| | 通用文本相似度(Levenshtein 等) | 低 | <10% | | 语义嵌入相似度 | 中 | ~15% | | GPT 5.4 作为判断者 | 中 | 最多 25% | | 领域特定解析器 | —(基准) | 100% | 通用方法**不足以**捕捉细粒度语义变化,52 个领域分别实现解析器是方法论的关键。 ## 相关概念 - [[delegate-52]] — 应用此概念的基准 - [[domain-specific-evaluation]] — 每个领域的解析器实现 - [[backtranslation-round-trip-relay]] — 依赖此概念的评估循环