45 lines
1.7 KiB
Markdown
45 lines
1.7 KiB
Markdown
---
|
||
title: 自我验证奖励 (Self-Verification Rewards)
|
||
created: 2025-04-15
|
||
updated: 2026-05-01
|
||
type: concept
|
||
tags: []
|
||
sources: []
|
||
---
|
||
|
||
# 自我验证奖励 (Self-Verification Rewards)
|
||
|
||
**利用生成-验证不对称性 (generation-verification asymmetry) 构建外部奖励信号的 URLVR 方法**,被 He et al. (ICLR 2026) 识别为突破内在奖励天花板的关键路径。
|
||
|
||
## 核心机制
|
||
|
||
核心洞见:很多任务中 **生成正确答案很难,但验证答案正确性很简单**。
|
||
|
||
模型生成候选解 → 模型自己验证这些解(通过验证提示词输出二元正确性) → 正确性判定作为 RL 奖励
|
||
|
||
## 与内在奖励的本质区别
|
||
|
||
| 特性 | [[intrinsic-rewards-sharpening|内在奖励]] | Self-Verification |
|
||
|------|------|------|
|
||
| 奖励来源 | 模型内部状态(logits/熵)| 外部计算过程 |
|
||
| 是否受模型先验限制 | ✅ 是(只锐化已有知识)| ❌ 否(验证可以超越生成能力)|
|
||
| 崩溃风险 | 不可避免 | 初步实验未观察到 |
|
||
|
||
## 实验证据
|
||
|
||
He et al. 在 Countdown 任务上训练 Qwen3-1.7B/4B:
|
||
- **内在奖励**: 先升后降,最终崩溃
|
||
- **Self-verification**: 持续改进,无崩溃模式
|
||
- 生成-验证不对称性使模型能够为"自己生成不出来的解"提供准确验证
|
||
|
||
## 深层洞见
|
||
|
||
这正是 **代码和数学验证的优势所在** — 这些领域中"验证比生成容易"的差距随着问题难度增大而扩大,使得基于验证的信号真正具备可扩展性。
|
||
|
||
## 相关概念
|
||
|
||
- [[generation-verification-asymmetry]] — 底层原理
|
||
- [[unsupervised-rlvr]] — URLVR 全景
|
||
- [[intrinsic-rewards-sharpening]] — 内在奖励的对比面
|
||
- [[he-urlvr-sharpening-2026]] — 综述参考
|