20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/specialized-rl.md
+++ b/concepts/specialized-rl.md
@@ -0,0 +1,41 @@
+---
+title: "专项强化学习 (Specialized RL)"
+domain: "Reinforcement Learning / Multimodal AI"
+tags: [rl, reinforcement-learning, visual-primitives, grpo]
+sources: [[thinking-with-visual-primitives]]
+---
+
+# 专项强化学习 (Specialized RL)
+
+> 在专项 SFT 之后，对框专家（FTwG）和点专家（FTwP）分别独立应用 GRPO 强化学习，配合多维度奖励模型提升推理质量。
+
+## 训练流程
+
+基于 [[group-relative-policy-optimization|群体相对策略优化]]，使用三类奖励模型（[[reward-model|奖励模型]]）提供并发监督：
+
+| RM 类型 | 方法 | 评估维度 |
+|---------|------|----------|
+| **Format RM** | 规则 | 格式正确性、防重复框、无限循环 |
+| **Quality RM** | LLM 评判 | 冗余、一致性、自我矛盾、奖励黑客 |
+| **Accuracy RM** | 任务特定 | 见下方 |
+
+### Accuracy RM 的任务特定设计
+
+- **计数**：[[exponential-decay-reward|指数衰减奖励]] — 平滑的相对误差惩罚
+- **空间推理/VQA**：LLM 评判思维内容和答案
+- **迷宫**：因果探索进度 + 完整性 + 违规惩罚 + 答案正确性
+- **路径**：[[bidirectional-trajectory-evaluation|双向轨迹评估]] + 端点精度 + 连续性惩罚
+
+## 关键设计决策
+
+在 RL 阶段**不显式监督思维过程中的视觉原语**——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围（仅需图像+问题+答案）。
+
+## 数据筛选
+
+用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → **只选 Normal 级别**（有提升空间但非无解）进行 RL 训练。
+
+## 相关概念
+
+- [[specialized-sft|专项监督微调]] — 前置阶段
+- [[group-relative-policy-optimization|群体相对策略优化]] — 使用的 RL 算法
+- [[reward-model|奖励模型]] — reward 来源