Files
myWiki/concepts/s-token.md
2026-06-01 10:46:01 +08:00

37 lines
1.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "S-Token (Superposed Token)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["pre-training", "embedding", "TST"]
sources: ["https://arxiv.org/abs/2605.06546"]
---
# S-Token (Superposed Token)
**S-Token** 是 [[token-superposition-training|TST]] 中的核心抽象:将连续 s 个普通 token 的 embedding 取平均后得到的单个 latent representation。
## 定义
给定一个 bag of s tokens $\{t_1, \dots, t_s\}$s-token 的 embedding 为:
$$e_{\text{s-token}} = \frac{1}{s} \sum_{i=1}^{s} e(t_i)$$
其中 $e(t_i)$ 是标准 embedding。
## 性质
- **信息压缩**s 个 token 被压缩为 1 个表示,信息密度更高但丢失了 token 间的顺序
- **维度不变**s-token 与普通 token 的 embedding 维度相同
- **半因果性**s-token 序列仍按 bag 顺序从左到右causal但 bag 内部无序
## 在 TST 中的作用
s-token 是 TST 实现 **等 FLOPs 下 s× 数据吞吐量** 的关键。因为 LLM 在更短(但更密集)的序列上运算,每个 step 的 FLOPs 不变,但等效于吞入了 s× 更多的原始 token。
## 相关
- [[token-superposition-training]] — 使用 s-token 的方法
- [[input-superposition]] — s-token 的创建过程
- [[coarse-to-fine-granularity]] — s-token 体现的设计原则