统一拒绝采样微调 (Unified RFT)

Unified Rejection Fine-Tuning：利用专家模型的 on-policy rollout 生成高质量训练数据，将框和点两种视觉原语推理范式统一到单个模型。

流程

使用专家模型 visual-primitives 和 visual-primitives 在数据池上进行 rollout
按 group-relative-policy-optimization 的难度标准对样本分类
数据筛选策略：
- Normal-Level（部分正确）：全部保留
- Easy-Level（全部正确）：随机采样 5%（防止灾难性遗忘）
- Hard-Level（全部错误）：丢弃
从 base pretrained model 初始化，用 RFT 数据集进行 SFT