Files
myWiki/concepts/reward-model.md

36 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "奖励模型 (Reward Model, RM)"
domain: "Reinforcement Learning"
tags: [reward-model, rlhf, grpo, reinforcement-learning]
sources: [[thinking-with-visual-primitives]]
---
# 奖励模型 (Reward Model, RM)
> 在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。
## 视觉原语框架中的三类 RM
| RM 类型 | 实现 | 任务覆盖 | 评分维度 |
|---------|------|----------|----------|
| **Format RM** | 规则 | 所有任务 | 格式正确性、防重复/死循环 |
| **Quality RM** | LLM (GRM) | 所有任务 | 一致性、矛盾、冗余、奖励黑客 |
| **Accuracy RM** | 任务特定 | 各任务独立 | 见下方 |
### Accuracy RM 的任务特定设计
- **计数**[[exponential-decay-reward|指数衰减奖励]] — 平滑相对误差
- **空间推理/VQA**LLM (GRM) — 思维+答案双维度
- **迷宫导航**:因果探索进度 + 完整性 + 违规惩罚
- **路径追踪**[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点 + 连续性
## 关键设计原则
1. **密集信号**:不为最终答案提供二元奖励,而是每一步都给反馈
2. **因果一致性**:迷宫场景中,遇墙违规→截断后续所有步骤
3. **防奖励黑客**Quality RM 专门检测模型伪造 ground truth 等行为
## 相关概念
- [[group-relative-policy-optimization|群体相对策略优化]] — 使用 RM 的 RL 算法
- [[specialized-rl|专项强化学习]] — RM 的应用场景