Files
myWiki/concepts/self-verification-rewards.md

45 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 自我验证奖励 (Self-Verification Rewards)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---
# 自我验证奖励 (Self-Verification Rewards)
**利用生成-验证不对称性 (generation-verification asymmetry) 构建外部奖励信号的 URLVR 方法**,被 He et al. (ICLR 2026) 识别为突破内在奖励天花板的关键路径。
## 核心机制
核心洞见:很多任务中 **生成正确答案很难,但验证答案正确性很简单**
模型生成候选解 → 模型自己验证这些解(通过验证提示词输出二元正确性) → 正确性判定作为 RL 奖励
## 与内在奖励的本质区别
| 特性 | [[intrinsic-rewards-sharpening|内在奖励]] | Self-Verification |
|------|------|------|
| 奖励来源 | 模型内部状态logits/熵)| 外部计算过程 |
| 是否受模型先验限制 | ✅ 是(只锐化已有知识)| ❌ 否(验证可以超越生成能力)|
| 崩溃风险 | 不可避免 | 初步实验未观察到 |
## 实验证据
He et al. 在 Countdown 任务上训练 Qwen3-1.7B/4B
- **内在奖励**: 先升后降,最终崩溃
- **Self-verification**: 持续改进,无崩溃模式
- 生成-验证不对称性使模型能够为"自己生成不出来的解"提供准确验证
## 深层洞见
这正是 **代码和数学验证的优势所在** — 这些领域中"验证比生成容易"的差距随着问题难度增大而扩大,使得基于验证的信号真正具备可扩展性。
## 相关概念
- [[generation-verification-asymmetry]] — 底层原理
- [[unsupervised-rlvr]] — URLVR 全景
- [[intrinsic-rewards-sharpening]] — 内在奖励的对比面
- [[he-urlvr-sharpening-2026]] — 综述参考