---
title: "Soft Token"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [latent-reasoning, architecture, tokenization]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---

# Soft Token

Soft token 是 [[latent-reasoning|潜在推理]] 中的核心构建块——它是 token embedding 空间中**概率加权的连续向量混合**，而非单个离散 token。

## 定义

给定当前 logits，对 top-k 个候选 token 的 embedding 进行 softmax 加权求和：

```
u_soft = sum_{i in K_t} w^(i) * E(v^(i))
```

其中 `K_t` 是 top-k token 集合，`w^(i)` 是对应 logits 的 softmax 归一化权重，`E(v^(i))` 是 token embedding。

## 与 Hard Token 的对比

| 属性 | [[hard-token]] | soft token |
|------|---------------|------------|
| 类型 | 离散 | 连续 |
| 表达力 | 单一 token | 多条路径的混合 |
| 随机性 | 采样自带随机性 | 确定性加权 |
| 可读性 | 人类可读 | 不可读 |
| RL 探索 | 天然支持 | 需要额外引入 |

## 在 TARPO 中的作用

在 [[tarpo|TARPO]] 中，当 [[action-head-router|路由器]] 选择 soft 模式时，推理步骤使用 soft token 而非离散 token：
- **数学推理中**：路由器倾向于在关键数学 token 上分配高 soft 概率
- **结构文本中**：保持 hard token 生成

## 参考

- [[hard-token]]
- [[latent-reasoning|潜在推理]]
- [[tarpo|TARPO]]
- [[continuous-representation|连续表征]]