20260514:增加新内容
This commit is contained in:
36
concepts/reward-model.md
Normal file
36
concepts/reward-model.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "奖励模型 (Reward Model, RM)"
|
||||
domain: "Reinforcement Learning"
|
||||
tags: [reward-model, rlhf, grpo, reinforcement-learning]
|
||||
sources: [[thinking-with-visual-primitives]]
|
||||
---
|
||||
|
||||
# 奖励模型 (Reward Model, RM)
|
||||
|
||||
> 在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。
|
||||
|
||||
## 视觉原语框架中的三类 RM
|
||||
|
||||
| RM 类型 | 实现 | 任务覆盖 | 评分维度 |
|
||||
|---------|------|----------|----------|
|
||||
| **Format RM** | 规则 | 所有任务 | 格式正确性、防重复/死循环 |
|
||||
| **Quality RM** | LLM (GRM) | 所有任务 | 一致性、矛盾、冗余、奖励黑客 |
|
||||
| **Accuracy RM** | 任务特定 | 各任务独立 | 见下方 |
|
||||
|
||||
### Accuracy RM 的任务特定设计
|
||||
|
||||
- **计数**:[[exponential-decay-reward|指数衰减奖励]] — 平滑相对误差
|
||||
- **空间推理/VQA**:LLM (GRM) — 思维+答案双维度
|
||||
- **迷宫导航**:因果探索进度 + 完整性 + 违规惩罚
|
||||
- **路径追踪**:[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点 + 连续性
|
||||
|
||||
## 关键设计原则
|
||||
|
||||
1. **密集信号**:不为最终答案提供二元奖励,而是每一步都给反馈
|
||||
2. **因果一致性**:迷宫场景中,遇墙违规→截断后续所有步骤
|
||||
3. **防奖励黑客**:Quality RM 专门检测模型伪造 ground truth 等行为
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[group-relative-policy-optimization|群体相对策略优化]] — 使用 RM 的 RL 算法
|
||||
- [[specialized-rl|专项强化学习]] — RM 的应用场景
|
||||
Reference in New Issue
Block a user