SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.8 KiB

Raw Blame History

title, domain, tags, sources

title

domain

tags

sources

专项强化学习 (Specialized RL)

Reinforcement Learning / Multimodal AI

rl

reinforcement-learning

visual-primitives

grpo

thinking-with-visual-primitives

专项强化学习 (Specialized RL)

在专项 SFT 之后，对框专家（FTwG）和点专家（FTwP）分别独立应用 GRPO 强化学习，配合多维度奖励模型提升推理质量。

训练流程

基于 group-relative-policy-optimization，使用三类奖励模型（reward-model）提供并发监督：

RM 类型	方法	评估维度
Format RM	规则	格式正确性、防重复框、无限循环
Quality RM	LLM 评判	冗余、一致性、自我矛盾、奖励黑客
Accuracy RM	任务特定	见下方

Accuracy RM 的任务特定设计

计数：exponential-decay-reward — 平滑的相对误差惩罚
空间推理/VQA：LLM 评判思维内容和答案
迷宫：因果探索进度 + 完整性 + 违规惩罚 + 答案正确性
路径：bidirectional-trajectory-evaluation + 端点精度 + 连续性惩罚

关键设计决策

在 RL 阶段不显式监督思维过程中的视觉原语——因为冷启动数据中的原语已被严格验证。这大幅扩展了可用 RL 数据的范围（仅需图像+问题+答案）。

数据筛选

用 SFT 模型 rollout → 按正确率分 Easy/Normal/Hard → 只选 Normal 级别（有提升空间但非无解）进行 RL 训练。

相关概念

specialized-sft — 前置阶段
group-relative-policy-optimization — 使用的 RL 算法
reward-model — reward 来源