20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/s-token.md
+++ b/concepts/s-token.md
@@ -0,0 +1,36 @@
+---
+title: "S-Token (Superposed Token)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["pre-training", "embedding", "TST"]
+sources: ["https://arxiv.org/abs/2605.06546"]
+---
+
+# S-Token (Superposed Token)
+
+**S-Token** 是 [[token-superposition-training|TST]] 中的核心抽象：将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。
+
+## 定义
+
+给定一个 bag of s tokens $\{t_1, \dots, t_s\}$，s-token 的 embedding 为：
+
+$$e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)$$
+
+其中 $e(t_i)$ 是标准 embedding。
+
+## 性质
+
+- **信息压缩**：s 个 token 被压缩为 1 个表示，信息密度更高但丢失了 token 间的顺序
+- **维度不变**：s-token 与普通 token 的 embedding 维度相同
+- **半因果性**：s-token 序列仍按 bag 顺序从左到右（causal），但 bag 内部无序
+
+## 在 TST 中的作用
+
+s-token 是 TST 实现 **等 FLOPs 下 s× 数据吞吐量** 的关键。因为 LLM 在更短（但更密集）的序列上运算，每个 step 的 FLOPs 不变，但等效于吞入了 s× 更多的原始 token。
+
+## 相关
+
+- [[token-superposition-training]] — 使用 s-token 的方法
+- [[input-superposition]] — s-token 的创建过程
+- [[coarse-to-fine-granularity]] — s-token 体现的设计原则