1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| Soft Token | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
Soft Token
Soft token 是 latent-reasoning 中的核心构建块——它是 token embedding 空间中概率加权的连续向量混合,而非单个离散 token。
定义
给定当前 logits,对 top-k 个候选 token 的 embedding 进行 softmax 加权求和:
u_soft = sum_{i in K_t} w^(i) * E(v^(i))
其中 K_t 是 top-k token 集合,w^(i) 是对应 logits 的 softmax 归一化权重,E(v^(i)) 是 token embedding。
与 Hard Token 的对比
| 属性 | hard-token | soft token |
|---|---|---|
| 类型 | 离散 | 连续 |
| 表达力 | 单一 token | 多条路径的混合 |
| 随机性 | 采样自带随机性 | 确定性加权 |
| 可读性 | 人类可读 | 不可读 |
| RL 探索 | 天然支持 | 需要额外引入 |
在 TARPO 中的作用
在 tarpo 中,当 action-head-router 选择 soft 模式时,推理步骤使用 soft token 而非离散 token:
- 数学推理中:路由器倾向于在关键数学 token 上分配高 soft 概率
- 结构文本中:保持 hard token 生成