Files
myWiki/concepts/model-collapse-step.md

45 lines
1.4 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: 模型崩溃步 (Model Collapse Step, MCS)
created: 2025-04-15
updated: 2026-05-01
type: concept
tags: []
sources: []
---
# 模型崩溃步 (Model Collapse Step, MCS)
**衡量模型在内在 URLVR 下能维持多久才崩溃的实用指标**,由 He et al. (ICLR 2026) 提出,作为模型先验的低成本度量。
## 定义
$$\text{MCS} = \arg\min_{t} \{ \text{Reward Accuracy}(t) < 1\% \}$$
模型在内在 URLVR 训练中从开始到奖励准确率跌破 1% 的训练步数MCS 越大 模型先验越强 更适合作为标准 RL 的基模型
## 为什么需要 MCS
| 方法 | 问题 |
|------|------|
| 跑完整 RL 训练 | 成本极高 |
| pass@k | 准确率低多选问题中 k 足够大时 1 |
| **MCS** | 无需 GT 标签 pass@k 更准对多选问题鲁棒 |
## 实验发现
- **Qwen 家族**: SFT 变体在整个训练中维持高奖励准确率MCS 极大
- **LLaMA 家族**: 基模型约 40 步崩溃SFT 变体约 200
- MCS 与标准 RL GT 增益 **高度相关**优于 pass@k
## 实际应用
1. **基模型选择**: 不跑标准 RL跑一小段内在 URLVR MCS
2. **RL 可行性预测**: MCS 低的模型不适合标准 RLVR
3. **模型先验度量**: 量化"模型内在知识"的强度
## 相关概念
- [[intrinsic-rewards-sharpening]] Sharpening MCS 的底层机制
- [[unsupervised-rlvr]] URLVR 上下文
- [[he-urlvr-sharpening-2026]] 综述参考