SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.6 KiB

Raw Permalink Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Backtranslation Round-Trip Relay

2026-05-14

concept

evaluation-methodology

backtranslation

round-trip

relay

semantic-equivalence

https://arxiv.org/abs/2604.15597

Backtranslation Round-Trip Relay

回译接力（Backtranslation Round-Trip Relay）是 delegate-52 基准的核心评估方法论，通过可逆编辑任务的链式组合来衡量 LLM 的文档编辑保真度。

回译原语（Round-Trip Primitive）

给定种子文档 s 和一对编辑指令 (x→, x←)：

正向编辑：t = σ(s) = LLM(s; x→)
反向编辑：ŝ = σ⁻¹(t) = LLM(t; x←)
重建分数：sim(s, ŝ) ∈ [0, 1]

完美模型应使 sim(s, ŝ) = 1，评估退化为衡量语义等价程度，无需人工标注参考答案。

Relay 组合

将 N 对正向/反向指令连续应用：

ŝₖ = σ₁ ∘ σ₁⁻¹ ∘ ... ∘ σₙ ∘ σₙ⁻¹(s)

每轮回译后计算 RS@k = sim(s, ŝ_{k/2})，跟踪退化曲线。

方法论前提

每个编辑任务必须是可逆的
模型真正尝试执行编辑而非走捷径（附录 A 验证）
每次交互是独立的单轮会话

思想渊源

源于机器翻译中的回译（backtranslation）技术（Sennrich et al., 2015; Somers, 2005），近期被用于评估 LLM 一致性（Hong et al., 2025; Allamanis et al., 2024）。

相关概念

delegate-52 — 使用此方法论的基准
round-trip-reconstruction-score — RS@k 指标
semantic-equivalence — 评分的理论基础
document-degradation — 此方法揭示的核心现象