SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.5 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

奖励模型 (Reward Model, RM)

Reinforcement Learning

reward-model

rlhf

grpo

reinforcement-learning

thinking-with-visual-primitives

奖励模型 (Reward Model, RM)

在 RLHF/GRPO 训练中提供奖励信号的评判模型——可以是基于规则的、LLM 评判的、或混合的。

视觉原语框架中的三类 RM

RM 类型	实现	任务覆盖	评分维度
Format RM	规则	所有任务	格式正确性、防重复/死循环
Quality RM	LLM (GRM)	所有任务	一致性、矛盾、冗余、奖励黑客
Accuracy RM	任务特定	各任务独立	见下方

Accuracy RM 的任务特定设计

计数：exponential-decay-reward — 平滑相对误差
空间推理/VQA：LLM (GRM) — 思维+答案双维度
迷宫导航：因果探索进度 + 完整性 + 违规惩罚
路径追踪：bidirectional-trajectory-evaluation + 端点 + 连续性

关键设计原则

密集信号：不为最终答案提供二元奖励，而是每一步都给反馈
因果一致性：迷宫场景中，遇墙违规→截断后续所有步骤
防奖励黑客：Quality RM 专门检测模型伪造 ground truth 等行为

相关概念

group-relative-policy-optimization — 使用 RM 的 RL 算法
specialized-rl — RM 的应用场景