20260617:目前有914 页
This commit is contained in:
46
concepts/soft-token.md
Normal file
46
concepts/soft-token.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Soft Token"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [latent-reasoning, architecture, tokenization]
|
||||
sources: [raw/papers/zhang-tarpo-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# Soft Token
|
||||
|
||||
Soft token 是 [[latent-reasoning|潜在推理]] 中的核心构建块——它是 token embedding 空间中**概率加权的连续向量混合**,而非单个离散 token。
|
||||
|
||||
## 定义
|
||||
|
||||
给定当前 logits,对 top-k 个候选 token 的 embedding 进行 softmax 加权求和:
|
||||
|
||||
```
|
||||
u_soft = sum_{i in K_t} w^(i) * E(v^(i))
|
||||
```
|
||||
|
||||
其中 `K_t` 是 top-k token 集合,`w^(i)` 是对应 logits 的 softmax 归一化权重,`E(v^(i))` 是 token embedding。
|
||||
|
||||
## 与 Hard Token 的对比
|
||||
|
||||
| 属性 | [[hard-token]] | soft token |
|
||||
|------|---------------|------------|
|
||||
| 类型 | 离散 | 连续 |
|
||||
| 表达力 | 单一 token | 多条路径的混合 |
|
||||
| 随机性 | 采样自带随机性 | 确定性加权 |
|
||||
| 可读性 | 人类可读 | 不可读 |
|
||||
| RL 探索 | 天然支持 | 需要额外引入 |
|
||||
|
||||
## 在 TARPO 中的作用
|
||||
|
||||
在 [[tarpo|TARPO]] 中,当 [[action-head-router|路由器]] 选择 soft 模式时,推理步骤使用 soft token 而非离散 token:
|
||||
- **数学推理中**:路由器倾向于在关键数学 token 上分配高 soft 概率
|
||||
- **结构文本中**:保持 hard token 生成
|
||||
|
||||
## 参考
|
||||
|
||||
- [[hard-token]]
|
||||
- [[latent-reasoning|潜在推理]]
|
||||
- [[tarpo|TARPO]]
|
||||
- [[continuous-representation|连续表征]]
|
||||
Reference in New Issue
Block a user