Files
myWiki/concepts/specialized-rl.md

41 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "专项强化学习 (Specialized RL)"
domain: "Reinforcement Learning / Multimodal AI"
tags: [rl, reinforcement-learning, visual-primitives, grpo]
sources: [[thinking-with-visual-primitives]]
---
# 专项强化学习 (Specialized RL)
> 在专项 SFT 之后对框专家FTwG和点专家FTwP分别独立应用 GRPO 强化学习,配合多维度奖励模型提升推理质量。
## 训练流程
基于 [[group-relative-policy-optimization|群体相对策略优化]],使用三类奖励模型([[reward-model|奖励模型]])提供并发监督:
| RM 类型 | 方法 | 评估维度 |
|---------|------|----------|
| **Format RM** | 规则 | 格式正确性、防重复框、无限循环 |
| **Quality RM** | LLM 评判 | 冗余、一致性、自我矛盾、奖励黑客 |
| **Accuracy RM** | 任务特定 | 见下方 |
### Accuracy RM 的任务特定设计
- **计数**[[exponential-decay-reward|指数衰减奖励]] — 平滑的相对误差惩罚
- **空间推理/VQA**LLM 评判思维内容和答案
- **迷宫**:因果探索进度 + 完整性 + 违规惩罚 + 答案正确性
- **路径**[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点精度 + 连续性惩罚
## 关键设计决策
在 RL 阶段**不显式监督思维过程中的视觉原语**——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围(仅需图像+问题+答案)。
## 数据筛选
用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → **只选 Normal 级别**(有提升空间但非无解)进行 RL 训练。
## 相关概念
- [[specialized-sft|专项监督微调]] — 前置阶段
- [[group-relative-policy-optimization|群体相对策略优化]] — 使用的 RL 算法
- [[reward-model|奖励模型]] — reward 来源