Files
myWiki/concepts/round-trip-reconstruction-score.md

1.3 KiB
Raw Permalink Blame History

title, created, type, tags, sources
title created type tags sources
Round-Trip Reconstruction Score (RS@k) 2026-05-14 concept
evaluation-metric
semantic-equivalence
reconstruction
delegate-52
https://arxiv.org/abs/2604.15597

Round-Trip Reconstruction Score (RS@k)

RS@k 是 delegate-52 中的核心评估指标,衡量经过 k 次委托交互后文档相对于原始状态的重建质量。

定义

backtranslation-round-trip-relayk 次交互 = k/2 个回译。RS@k 定义为:

RS@k(s) = sim(s, ŝ_{k/2})

其中 sim 是领域特定的 semantic-equivalence函数 ∈ [0, 1]。

含义

  • RS@21 次回译后的表现(短交互)
  • RS@2010 次回译后的表现(主要实验中)
  • RS@10050 次回译后的表现(扩展实验中)

Ready 阈值

RS@20 ≥ 98% 视为该模型在该领域对 delegated-work"准备就绪"。

跨交互退化轨迹

以 GPT 5.4 为例RS@2 = 94.3 → RS@10 = 79.4 → RS@20 = 71.5 退化为非线性单调下降,无平台迹象。

相关概念