43 lines
1.5 KiB
Markdown
43 lines
1.5 KiB
Markdown
---
|
|
title: 集成奖励 (Ensemble-Based Rewards)
|
|
created: 2025-04-15
|
|
updated: 2026-05-01
|
|
type: concept
|
|
tags: []
|
|
sources: []
|
|
---
|
|
|
|
# 集成奖励 (Ensemble-Based Rewards)
|
|
|
|
**URLVR 的内在奖励范式之一**,从多次采样的一致性(多数投票)推导奖励,假设一致性 = 正确性。
|
|
|
|
## 代表方法
|
|
|
|
| 方法 | 奖励构造 | 核心思想 |
|
|
|------|---------|---------|
|
|
| TTRL | 多数投票匹配 | 与多数答案一致 → +1 |
|
|
| SRT | 自奖励训练 | 多数答案作为伪标签 |
|
|
| SeRL | 自进化 RL | 多样本交叉验证 |
|
|
| R-Zero | 零监督推理 | 集成一致性驱动 |
|
|
| Co-Reward | 协同奖励 | 多模型交叉验证 |
|
|
| EMPO | 聚类奖励 | 聚类中心作为伪答案 |
|
|
|
|
## 理论局限
|
|
|
|
虽然集成奖励比 [[certainty-based-rewards|确定性奖励]] 多了"多样本交叉验证"的维度,但 [[intrinsic-rewards-sharpening|Sharpening 理论]] 证明它同样收敛于锐化初始分布:多数投票的统计特性依赖模型初始偏好的分布,而锐化机制恰好放大了这些偏好。
|
|
|
|
## 对比 Certainty-Based
|
|
|
|
| 集成奖励 | [[certainty-based-rewards|确定性奖励]] |
|
|
|---------|------|
|
|
| 多次采样(计算昂贵) | 单次前向(计算便宜)|
|
|
| 样本间一致性驱动 | 样本内置信度驱动 |
|
|
| 采样多样性 → 更好信号 | 速度快但可能更偏置 |
|
|
|
|
## 相关概念
|
|
|
|
- [[certainty-based-rewards]] — 另一内在范式
|
|
- [[intrinsic-rewards-sharpening]] — 统一理论
|
|
- [[unsupervised-rlvr]] — URLVR 全景
|
|
- [[he-urlvr-sharpening-2026]] — 综述参考
|