1.3 KiB
1.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| S-Token (Superposed Token) | 2026-05-29 | 2026-05-29 | concept |
|
|
S-Token (Superposed Token)
S-Token 是 token-superposition-training 中的核心抽象:将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。
定义
给定一个 bag of s tokens ${t_1, \dots, t_s}$,s-token 的 embedding 为:
e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)
其中 e(t_i) 是标准 embedding。
性质
- 信息压缩:s 个 token 被压缩为 1 个表示,信息密度更高但丢失了 token 间的顺序
- 维度不变:s-token 与普通 token 的 embedding 维度相同
- 半因果性:s-token 序列仍按 bag 顺序从左到右(causal),但 bag 内部无序
在 TST 中的作用
s-token 是 TST 实现 等 FLOPs 下 s× 数据吞吐量 的关键。因为 LLM 在更短(但更密集)的序列上运算,每个 step 的 FLOPs 不变,但等效于吞入了 s× 更多的原始 token。
相关
- token-superposition-training — 使用 s-token 的方法
- input-superposition — s-token 的创建过程
- coarse-to-fine-granularity — s-token 体现的设计原则