20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/ensemble-based-rewards.md
+++ b/concepts/ensemble-based-rewards.md
@@ -0,0 +1,42 @@
+---
+title: 集成奖励 (Ensemble-Based Rewards)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 集成奖励 (Ensemble-Based Rewards)
+
+**URLVR 的内在奖励范式之一**，从多次采样的一致性（多数投票）推导奖励，假设一致性 = 正确性。
+
+## 代表方法
+
+| 方法 | 奖励构造 | 核心思想 |
+|------|---------|---------|
+| TTRL | 多数投票匹配 | 与多数答案一致 → +1 |
+| SRT | 自奖励训练 | 多数答案作为伪标签 |
+| SeRL | 自进化 RL | 多样本交叉验证 |
+| R-Zero | 零监督推理 | 集成一致性驱动 |
+| Co-Reward | 协同奖励 | 多模型交叉验证 |
+| EMPO | 聚类奖励 | 聚类中心作为伪答案 |
+
+## 理论局限
+
+虽然集成奖励比 [[certainty-based-rewards|确定性奖励]] 多了"多样本交叉验证"的维度，但 [[intrinsic-rewards-sharpening|Sharpening 理论]] 证明它同样收敛于锐化初始分布：多数投票的统计特性依赖模型初始偏好的分布，而锐化机制恰好放大了这些偏好。
+
+## 对比 Certainty-Based
+
+| 集成奖励 | [[certainty-based-rewards|确定性奖励]] |
+|---------|------|
+| 多次采样（计算昂贵） | 单次前向（计算便宜）|
+| 样本间一致性驱动 | 样本内置信度驱动 |
+| 采样多样性 → 更好信号 | 速度快但可能更偏置 |
+
+## 相关概念
+
+- [[certainty-based-rewards]] — 另一内在范式
+- [[intrinsic-rewards-sharpening]] — 统一理论
+- [[unsupervised-rlvr]] — URLVR 全景
+- [[he-urlvr-sharpening-2026]] — 综述参考