Files
myWiki/concepts/self-verification-rewards.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
自我验证奖励 (Self-Verification Rewards) 2025-04-15 2026-05-01 concept

自我验证奖励 (Self-Verification Rewards)

利用生成-验证不对称性 (generation-verification asymmetry) 构建外部奖励信号的 URLVR 方法,被 He et al. (ICLR 2026) 识别为突破内在奖励天花板的关键路径。

核心机制

核心洞见:很多任务中 生成正确答案很难,但验证答案正确性很简单

模型生成候选解 → 模型自己验证这些解(通过验证提示词输出二元正确性) → 正确性判定作为 RL 奖励

与内在奖励的本质区别

| 特性 | intrinsic-rewards-sharpening | Self-Verification | |------|------|------| | 奖励来源 | 模型内部状态logits/熵)| 外部计算过程 | | 是否受模型先验限制 | 是(只锐化已有知识)| 否(验证可以超越生成能力)| | 崩溃风险 | 不可避免 | 初步实验未观察到 |

实验证据

He et al. 在 Countdown 任务上训练 Qwen3-1.7B/4B

  • 内在奖励: 先升后降,最终崩溃
  • Self-verification: 持续改进,无崩溃模式
  • 生成-验证不对称性使模型能够为"自己生成不出来的解"提供准确验证

深层洞见

这正是 代码和数学验证的优势所在 — 这些领域中"验证比生成容易"的差距随着问题难度增大而扩大,使得基于验证的信号真正具备可扩展性。

相关概念