20260514:增加新内容

2026-05-14 13:54:52 +08:00
parent 56c4d3ef7c
commit b116710e4c
294 changed files with 10682 additions and 255 deletions
--- a/concepts/model-collapse-step.md
+++ b/concepts/model-collapse-step.md
@@ -0,0 +1,44 @@
+---
+title: 模型崩溃步 (Model Collapse Step, MCS)
+created: 2025-04-15
+updated: 2026-05-01
+type: concept
+tags: []
+sources: []
+---
+
+# 模型崩溃步 (Model Collapse Step, MCS)
+
+**衡量模型在内在 URLVR 下能维持多久才崩溃的实用指标**，由 He et al. (ICLR 2026) 提出，作为模型先验的低成本度量。
+
+## 定义
+
+$$\text{MCS} = \arg\min_{t} \{ \text{Reward Accuracy}(t) < 1\% \}$$
+
+模型在内在 URLVR 训练中，从开始到奖励准确率跌破 1% 的训练步数。MCS 越大 → 模型先验越强 → 更适合作为标准 RL 的基模型。
+
+## 为什么需要 MCS？
+
+| 方法 | 问题 |
+|------|------|
+| 跑完整 RL 训练 | 成本极高 |
+| pass@k | 准确率低，多选问题中 k 足够大时 → 1 |
+| **MCS** | 无需 GT 标签，比 pass@k 更准，对多选问题鲁棒 |
+
+## 实验发现
+
+- **Qwen 家族**: SFT 变体在整个训练中维持高奖励准确率，MCS 极大
+- **LLaMA 家族**: 基模型约 40 步崩溃，SFT 变体约 200 步
+- MCS 与标准 RL 的 GT 增益 **高度相关**（优于 pass@k）
+
+## 实际应用
+
+1. **基模型选择**: 不跑标准 RL，跑一小段内在 URLVR 看 MCS
+2. **RL 可行性预测**: MCS 低的模型不适合标准 RLVR
+3. **模型先验度量**: 量化"模型内在知识"的强度
+
+## 相关概念
+
+- [[intrinsic-rewards-sharpening]] — Sharpening 是 MCS 的底层机制
+- [[unsupervised-rlvr]] — URLVR 上下文
+- [[he-urlvr-sharpening-2026]] — 综述参考