Files
myWiki/concepts/ensemble-based-rewards.md

1.5 KiB

title, created, updated, type, tags, sources
title created updated type tags sources
集成奖励 (Ensemble-Based Rewards) 2025-04-15 2026-05-01 concept

集成奖励 (Ensemble-Based Rewards)

URLVR 的内在奖励范式之一,从多次采样的一致性(多数投票)推导奖励,假设一致性 = 正确性。

代表方法

方法 奖励构造 核心思想
TTRL 多数投票匹配 与多数答案一致 → +1
SRT 自奖励训练 多数答案作为伪标签
SeRL 自进化 RL 多样本交叉验证
R-Zero 零监督推理 集成一致性驱动
Co-Reward 协同奖励 多模型交叉验证
EMPO 聚类奖励 聚类中心作为伪答案

理论局限

虽然集成奖励比 certainty-based-rewards 多了"多样本交叉验证"的维度,但 intrinsic-rewards-sharpening 证明它同样收敛于锐化初始分布:多数投票的统计特性依赖模型初始偏好的分布,而锐化机制恰好放大了这些偏好。

对比 Certainty-Based

| 集成奖励 | certainty-based-rewards | |---------|------| | 多次采样(计算昂贵) | 单次前向(计算便宜)| | 样本间一致性驱动 | 样本内置信度驱动 | | 采样多样性 → 更好信号 | 速度快但可能更偏置 |

相关概念