37 lines
1.3 KiB
Markdown
37 lines
1.3 KiB
Markdown
---
|
||
title: "S-Token (Superposed Token)"
|
||
created: 2026-05-29
|
||
updated: 2026-05-29
|
||
type: concept
|
||
tags: ["pre-training", "embedding", "TST"]
|
||
sources: ["https://arxiv.org/abs/2605.06546"]
|
||
---
|
||
|
||
# S-Token (Superposed Token)
|
||
|
||
**S-Token** 是 [[token-superposition-training|TST]] 中的核心抽象:将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。
|
||
|
||
## 定义
|
||
|
||
给定一个 bag of s tokens $\{t_1, \dots, t_s\}$,s-token 的 embedding 为:
|
||
|
||
$$e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)$$
|
||
|
||
其中 $e(t_i)$ 是标准 embedding。
|
||
|
||
## 性质
|
||
|
||
- **信息压缩**:s 个 token 被压缩为 1 个表示,信息密度更高但丢失了 token 间的顺序
|
||
- **维度不变**:s-token 与普通 token 的 embedding 维度相同
|
||
- **半因果性**:s-token 序列仍按 bag 顺序从左到右(causal),但 bag 内部无序
|
||
|
||
## 在 TST 中的作用
|
||
|
||
s-token 是 TST 实现 **等 FLOPs 下 s× 数据吞吐量** 的关键。因为 LLM 在更短(但更密集)的序列上运算,每个 step 的 FLOPs 不变,但等效于吞入了 s× 更多的原始 token。
|
||
|
||
## 相关
|
||
|
||
- [[token-superposition-training]] — 使用 s-token 的方法
|
||
- [[input-superposition]] — s-token 的创建过程
|
||
- [[coarse-to-fine-granularity]] — s-token 体现的设计原则
|