SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.3 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

S-Token (Superposed Token)

2026-05-29

2026-05-29

concept

pre-training

embedding

TST

https://arxiv.org/abs/2605.06546

S-Token (Superposed Token)

S-Token 是 token-superposition-training 中的核心抽象：将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。

定义

给定一个 bag of s tokens ${t_1, \dots, t_s}$，s-token 的 embedding 为：

e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)

其中 e(t_i) 是标准 embedding。

性质

信息压缩：s 个 token 被压缩为 1 个表示，信息密度更高但丢失了 token 间的顺序
维度不变：s-token 与普通 token 的 embedding 维度相同
半因果性：s-token 序列仍按 bag 顺序从左到右（causal），但 bag 内部无序

在 TST 中的作用

s-token 是 TST 实现 等 FLOPs 下 s× 数据吞吐量 的关键。因为 LLM 在更短（但更密集）的序列上运算，每个 step 的 FLOPs 不变，但等效于吞入了 s× 更多的原始 token。

相关

token-superposition-training — 使用 s-token 的方法
input-superposition — s-token 的创建过程
coarse-to-fine-granularity — s-token 体现的设计原则