集成奖励 (Ensemble-Based Rewards)

URLVR 的内在奖励范式之一，从多次采样的一致性（多数投票）推导奖励，假设一致性 = 正确性。

代表方法

虽然集成奖励比 certainty-based-rewards 多了"多样本交叉验证"的维度，但 intrinsic-rewards-sharpening 证明它同样收敛于锐化初始分布：多数投票的统计特性依赖模型初始偏好的分布，而锐化机制恰好放大了这些偏好。

| 集成奖励 | certainty-based-rewards | |---------|------| | 多次采样（计算昂贵） | 单次前向（计算便宜）| | 样本间一致性驱动 | 样本内置信度驱动 | | 采样多样性 → 更好信号 | 速度快但可能更偏置 |