Files
myWiki/concepts/reward-model.md

1.5 KiB
Raw Blame History

title, domain, tags, sources
title domain tags sources
奖励模型 (Reward Model, RM) Reinforcement Learning
reward-model
rlhf
grpo
reinforcement-learning
thinking-with-visual-primitives

奖励模型 (Reward Model, RM)

在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。

视觉原语框架中的三类 RM

RM 类型 实现 任务覆盖 评分维度
Format RM 规则 所有任务 格式正确性、防重复/死循环
Quality RM LLM (GRM) 所有任务 一致性、矛盾、冗余、奖励黑客
Accuracy RM 任务特定 各任务独立 见下方

Accuracy RM 的任务特定设计

关键设计原则

  1. 密集信号:不为最终答案提供二元奖励,而是每一步都给反馈
  2. 因果一致性:迷宫场景中,遇墙违规→截断后续所有步骤
  3. 防奖励黑客Quality RM 专门检测模型伪造 ground truth 等行为

相关概念