--- title: "专项强化学习 (Specialized RL)" domain: "Reinforcement Learning / Multimodal AI" tags: [rl, reinforcement-learning, visual-primitives, grpo] sources: [[thinking-with-visual-primitives]] --- # 专项强化学习 (Specialized RL) > 在专项 SFT 之后,对框专家(FTwG)和点专家(FTwP)分别独立应用 GRPO 强化学习,配合多维度奖励模型提升推理质量。 ## 训练流程 基于 [[group-relative-policy-optimization|群体相对策略优化]],使用三类奖励模型([[reward-model|奖励模型]])提供并发监督: | RM 类型 | 方法 | 评估维度 | |---------|------|----------| | **Format RM** | 规则 | 格式正确性、防重复框、无限循环 | | **Quality RM** | LLM 评判 | 冗余、一致性、自我矛盾、奖励黑客 | | **Accuracy RM** | 任务特定 | 见下方 | ### Accuracy RM 的任务特定设计 - **计数**:[[exponential-decay-reward|指数衰减奖励]] — 平滑的相对误差惩罚 - **空间推理/VQA**:LLM 评判思维内容和答案 - **迷宫**:因果探索进度 + 完整性 + 违规惩罚 + 答案正确性 - **路径**:[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点精度 + 连续性惩罚 ## 关键设计决策 在 RL 阶段**不显式监督思维过程中的视觉原语**——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围(仅需图像+问题+答案)。 ## 数据筛选 用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → **只选 Normal 级别**(有提升空间但非无解)进行 RL 训练。 ## 相关概念 - [[specialized-sft|专项监督微调]] — 前置阶段 - [[group-relative-policy-optimization|群体相对策略优化]] — 使用的 RL 算法 - [[reward-model|奖励模型]] — reward 来源