1.8 KiB
1.8 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| 专项强化学习 (Specialized RL) | Reinforcement Learning / Multimodal AI |
|
|
专项强化学习 (Specialized RL)
在专项 SFT 之后,对框专家(FTwG)和点专家(FTwP)分别独立应用 GRPO 强化学习,配合多维度奖励模型提升推理质量。
训练流程
基于 group-relative-policy-optimization,使用三类奖励模型(reward-model)提供并发监督:
| RM 类型 | 方法 | 评估维度 |
|---|---|---|
| Format RM | 规则 | 格式正确性、防重复框、无限循环 |
| Quality RM | LLM 评判 | 冗余、一致性、自我矛盾、奖励黑客 |
| Accuracy RM | 任务特定 | 见下方 |
Accuracy RM 的任务特定设计
- 计数:exponential-decay-reward — 平滑的相对误差惩罚
- 空间推理/VQA:LLM 评判思维内容和答案
- 迷宫:因果探索进度 + 完整性 + 违规惩罚 + 答案正确性
- 路径:bidirectional-trajectory-evaluation + 端点精度 + 连续性惩罚
关键设计决策
在 RL 阶段不显式监督思维过程中的视觉原语——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围(仅需图像+问题+答案)。
数据筛选
用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → 只选 Normal 级别(有提升空间但非无解)进行 RL 训练。
相关概念
- specialized-sft — 前置阶段
- group-relative-policy-optimization — 使用的 RL 算法
- reward-model — reward 来源