重参数化探索 (Reparameterization Exploration)

重参数化探索是 latent-reasoning RL 中解决连续表征确定性困境的一条技术路线——通过噪声注入为连续表征引入随机性。

动机

连续潜在表征（如 soft-token）本质上是确定性的——它们是对 logits 的加权求和，不包含采样随机性。这限制了 RL 中的策略探索。

在压缩潜变量或连续 token embedding 中注入高斯噪声：

u_noisy = u + eps， eps ~ N(0, sigma^2)

代表性工作：Soft Tokens（Butt et al., 2025）、Latent-GRPO（Deng et al., 2026）

使用 gumbel-softmax 从 categorical 分布中导出可微的概率 soft-token 分布：

tarpo 采取了正交策略——不修改连续表征本身，而是引入结构级探索（structural exploration）：

TARPO 论文明确将两者的结合作为未来方向。