Files
myWiki/concepts/reparameterization-exploration.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
重参数化探索 (Reparameterization Exploration) 2026-06-17 2026-06-17 concept
reinforcement-learning
latent-reasoning
exploration
raw/papers/zhang-tarpo-2026.md
high

重参数化探索 (Reparameterization Exploration)

重参数化探索是 latent-reasoning RL 中解决连续表征确定性困境的一条技术路线——通过噪声注入为连续表征引入随机性。

动机

连续潜在表征(如 soft-token)本质上是确定性的——它们是对 logits 的加权求和,不包含采样随机性。这限制了 RL 中的策略探索。

主要方法

Gaussian 噪声注入

在压缩潜变量或连续 token embedding 中注入高斯噪声:

u_noisy = u + eps eps ~ N(0, sigma^2)

代表性工作Soft TokensButt et al., 2025、Latent-GRPODeng et al., 2026

Gumbel-Softmax 重参数化

使用 gumbel-softmax 从 categorical 分布中导出可微的概率 soft-token 分布:

  • 保留离散 token 的采样随机性
  • 同时支持梯度反向传播
  • 在 top-k 条件下构造近似的离散采样

与 TARPO 的关系

tarpo 采取了正交策略——不修改连续表征本身,而是引入结构级探索structural exploration

  • 重参数化探索 = 表征级随机性(在连续向量内部加噪)
  • TARPO 的路由探索 = 结构级随机性(在 hard/soft 模式间采样)

TARPO 论文明确将两者的结合作为未来方向。

参考