20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/reviews/peng-tst-2026-review.md
+++ b/reviews/peng-tst-2026-review.md
@@ -0,0 +1,52 @@
+---
+title: "Review: Token Superposition Training"
+created: 2026-05-29
+type: review
+paper: "peng-tst-2026"
+arxiv: "2605.06546"
+---
+
+# 📌 Review: Token Superposition Training
+
+**论文**: Efficient Pre-Training with Token Superposition
+**作者**: Bowen Peng, Théo Gigant, Jeffrey Quesnelle (Nous Research)
+**arXiv**: 2605.06546 | **领域**: cs.CL | **评审时间**: 2026-05-29
+
+---
+
+## 🎯 核心概念
+
+1. **[[token-superposition-training|Token Superposition Training (TST)]]** — 两阶段预训练方法：叠加阶段用 s-token 提高吞吐量，恢复阶段回归标准训练。不修改模型架构，纯 drop-in
+2. **[[multi-hot-cross-entropy|Multi-hot Cross-Entropy (MCE)]]** — 预测下一个 bag 全部 token 的损失函数，是标准 CE 的多标签推广
+3. **[[input-superposition|Input Superposition]]** — 将连续 s 个 token embedding 取平均形成 s-token，序列长度缩短 s×
+4. **[[representation-alignment|Representation Alignment]]** — 两阶段间必须共享 embedding 和 LM head，重新初始化会完全消除增益
+5. **[[coarse-to-fine-granularity|Coarse-to-Fine Granularity]]** — 跨模态设计原则：先用粗粒度高吞吐量表示训练，后切换到细粒度
+6. **[[throughput-hypothesis|Throughput Hypothesis]]** — coarser token → 更高训练数据吞吐 → 更好性能
+7. **[[two-phase-pretraining|Two-Phase Pre-Training]]** — 先用替代目标预训练再回归标准的通用范式
+8. **[[s-token|S-Token]]** — 叠加后形成的 latent representation
+
+---
+
+## 🔗 概念网络
+
+**核心连接**: `token-superposition-training` ↔ `input-superposition` ↔ `multi-hot-cross-entropy` ↔ `two-phase-pretraining`
+
+**设计原则层**: `coarse-to-fine-granularity` ↔ `throughput-hypothesis` ↔ `representation-alignment`
+
+**扩展连接**: 与 wiki 内已有概念（如 multi-token-prediction、subword-tokenization、mixture-of-experts）构成预训练效率优化的概念集群
+
+---
+
+## 📚 Wiki 集成
+
+- **新增页面**: 10 个（1 论文 + 1 raw 存档 + 8 概念）
+- **链接完整性**: 100% 无断链 ✅
+- **总规模**: 447 → 456 页
+
+---
+
+## 💡 关键洞察
+
+**1. "不修改"的力量**：TST 最令人印象深刻之处在于它是一个纯 drop-in 方案——不改架构、不改 tokenizer、不改优化器。这与 MoE、稀疏注意力等方法形成鲜明对比。这背后隐含了一个重要原则：**训练时的表示粒度和推理时的架构可以解耦**。
+
+**2. 表示对齐的隐藏重要性**：通过对照实验（随机重新初始化 embedding → 所有增益消失），论文揭示了一个在多阶段训练中容易被忽视的条件——阶段间的表示连续性。这不仅是 TST 工程上的成功关键，更是对任何多阶段训练范式的一般性启示。