1.5 KiB
1.5 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 奖励模型 (Reward Model, RM) | Reinforcement Learning |
|
|
奖励模型 (Reward Model, RM)
在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。
视觉原语框架中的三类 RM
| RM 类型 | 实现 | 任务覆盖 | 评分维度 |
|---|---|---|---|
| Format RM | 规则 | 所有任务 | 格式正确性、防重复/死循环 |
| Quality RM | LLM (GRM) | 所有任务 | 一致性、矛盾、冗余、奖励黑客 |
| Accuracy RM | 任务特定 | 各任务独立 | 见下方 |
Accuracy RM 的任务特定设计
- 计数:exponential-decay-reward — 平滑相对误差
- 空间推理/VQA:LLM (GRM) — 思维+答案双维度
- 迷宫导航:因果探索进度 + 完整性 + 违规惩罚
- 路径追踪:bidirectional-trajectory-evaluation + 端点 + 连续性
关键设计原则
- 密集信号:不为最终答案提供二元奖励,而是每一步都给反馈
- 因果一致性:迷宫场景中,遇墙违规→截断后续所有步骤
- 防奖励黑客:Quality RM 专门检测模型伪造 ground truth 等行为
相关概念
- group-relative-policy-optimization — 使用 RM 的 RL 算法
- specialized-rl — RM 的应用场景