Files
myWiki/concepts/specialized-rl.md

1.8 KiB
Raw Permalink Blame History

title, domain, tags, sources
title domain tags sources
专项强化学习 (Specialized RL) Reinforcement Learning / Multimodal AI
rl
reinforcement-learning
visual-primitives
grpo
thinking-with-visual-primitives

专项强化学习 (Specialized RL)

在专项 SFT 之后对框专家FTwG和点专家FTwP分别独立应用 GRPO 强化学习,配合多维度奖励模型提升推理质量。

训练流程

基于 group-relative-policy-optimization,使用三类奖励模型(reward-model)提供并发监督:

RM 类型 方法 评估维度
Format RM 规则 格式正确性、防重复框、无限循环
Quality RM LLM 评判 冗余、一致性、自我矛盾、奖励黑客
Accuracy RM 任务特定 见下方

Accuracy RM 的任务特定设计

关键设计决策

在 RL 阶段不显式监督思维过程中的视觉原语——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围(仅需图像+问题+答案)。

数据筛选

用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → 只选 Normal 级别(有提升空间但非无解)进行 RL 训练。

相关概念