SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.9 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Semantic Equivalence / 语义等价

2026-05-14

concept

evaluation

similarity

domain-parsing

reference-free

https://arxiv.org/abs/2604.15597

Semantic Equivalence

语义等价（Semantic Equivalence）是 delegate-52 中评估文档重建质量的核心概念。使用 sim(s, ŝ) ∈ [0, 1] 衡量种子文档和重建文档之间的等价程度。

实现：两步过程

1. 领域特定解析（Domain-Specific Parsing）

将文本文档转换为结构化表示。例如 Recipe 领域：

文本 → parse_recipe() → {
  ingredients: [{name, qty, unit}, ...],
  steps: [{num, desc}, ...],
  tips: [{num, desc}, ...]
}

2. 相似度评分（Similarity Scoring）

比较两个解析后的结构化表示，生成加权分数：

score = 0.4 × IngredientScore + 0.4 × StepScore + 0.2 × TipScore

权重通过消融实验校准，确保对内容丢失或损坏的比例敏感性。

设计优势

语义敏感：200g vs 0.2kg 视为等价（单位转换不影响分数）
错误敏感：200g vs 800g 严重扣分（量级变化影响分数）
顺序鲁棒：材料列表打乱不影响分数（匈牙利匹配）
免参考答案：无需人工标注 ground truth

与通用方法的对比

方法	与领域解析器的相关性	方差捕获率
通用文本相似度（Levenshtein 等）	低	<10%
语义嵌入相似度	中	~15%
GPT 5.4 作为判断者	中	最多 25%
领域特定解析器	—（基准）	100%

通用方法不足以捕捉细粒度语义变化，52 个领域分别实现解析器是方法论的关键。

相关概念

delegate-52 — 应用此概念的基准
domain-specific-evaluation — 每个领域的解析器实现
backtranslation-round-trip-relay — 依赖此概念的评估循环