45 lines
1.4 KiB
Markdown
45 lines
1.4 KiB
Markdown
---
|
||
title: 模型崩溃步 (Model Collapse Step, MCS)
|
||
created: 2025-04-15
|
||
updated: 2026-05-01
|
||
type: concept
|
||
tags: []
|
||
sources: []
|
||
---
|
||
|
||
# 模型崩溃步 (Model Collapse Step, MCS)
|
||
|
||
**衡量模型在内在 URLVR 下能维持多久才崩溃的实用指标**,由 He et al. (ICLR 2026) 提出,作为模型先验的低成本度量。
|
||
|
||
## 定义
|
||
|
||
$$\text{MCS} = \arg\min_{t} \{ \text{Reward Accuracy}(t) < 1\% \}$$
|
||
|
||
模型在内在 URLVR 训练中,从开始到奖励准确率跌破 1% 的训练步数。MCS 越大 → 模型先验越强 → 更适合作为标准 RL 的基模型。
|
||
|
||
## 为什么需要 MCS?
|
||
|
||
| 方法 | 问题 |
|
||
|------|------|
|
||
| 跑完整 RL 训练 | 成本极高 |
|
||
| pass@k | 准确率低,多选问题中 k 足够大时 → 1 |
|
||
| **MCS** | 无需 GT 标签,比 pass@k 更准,对多选问题鲁棒 |
|
||
|
||
## 实验发现
|
||
|
||
- **Qwen 家族**: SFT 变体在整个训练中维持高奖励准确率,MCS 极大
|
||
- **LLaMA 家族**: 基模型约 40 步崩溃,SFT 变体约 200 步
|
||
- MCS 与标准 RL 的 GT 增益 **高度相关**(优于 pass@k)
|
||
|
||
## 实际应用
|
||
|
||
1. **基模型选择**: 不跑标准 RL,跑一小段内在 URLVR 看 MCS
|
||
2. **RL 可行性预测**: MCS 低的模型不适合标准 RLVR
|
||
3. **模型先验度量**: 量化"模型内在知识"的强度
|
||
|
||
## 相关概念
|
||
|
||
- [[intrinsic-rewards-sharpening]] — Sharpening 是 MCS 的底层机制
|
||
- [[unsupervised-rlvr]] — URLVR 上下文
|
||
- [[he-urlvr-sharpening-2026]] — 综述参考
|