---
title: "重参数化探索 (Reparameterization Exploration)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, latent-reasoning, exploration]
sources: [raw/papers/zhang-tarpo-2026.md]
confidence: high
---

# 重参数化探索 (Reparameterization Exploration)

重参数化探索是 [[latent-reasoning|潜在推理]] RL 中解决**连续表征确定性困境**的一条技术路线——通过噪声注入为连续表征引入随机性。

## 动机

连续潜在表征（如 [[soft-token]]）本质上是确定性的——它们是对 logits 的加权求和，不包含采样随机性。这限制了 RL 中的策略探索。

## 主要方法

### Gaussian 噪声注入

在压缩潜变量或连续 token embedding 中注入高斯噪声：

```
u_noisy = u + eps， eps ~ N(0, sigma^2)
```

代表性工作：Soft Tokens（Butt et al., 2025）、Latent-GRPO（Deng et al., 2026）

### Gumbel-Softmax 重参数化

使用 [[gumbel-softmax|Gumbel-Softmax trick]] 从 categorical 分布中导出可微的概率 soft-token 分布：

- 保留离散 token 的采样随机性
- 同时支持梯度反向传播
- 在 top-k 条件下构造近似的离散采样

## 与 TARPO 的关系

[[tarpo|TARPO]] 采取了**正交策略**——不修改连续表征本身，而是引入**结构级探索**（structural exploration）：

- 重参数化探索 = **表征级**随机性（在连续向量内部加噪）
- TARPO 的路由探索 = **结构级**随机性（在 hard/soft 模式间采样）

TARPO 论文明确将两者的结合作为未来方向。

## 参考

- [[gumbel-softmax|Gumbel-Softmax]]
- [[latent-reasoning|潜在推理]]
- [[hybrid-reasoning|混合推理]]
- [[tarpo|TARPO]]