Files
myWiki/concepts/hrpo.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
HRPO: Hybrid Reasoning Policy Optimization 2026-06-17 2026-06-17 concept
reasoning
architecture
latent-reasoning
reinforcement-learning
raw/papers/zhang-tarpo-2026.md
high

HRPO: Hybrid Reasoning Policy Optimization

HRPOYue et al., 2026密集融合型混合推理的代表性 RL 方法,在 tarpo 论文中是核心对比基线。

核心机制

HRPO 在每一个解码步骤中构造离散 token 和连续表征的融合表示:

u_fused = g * E(v_t) + (1-g) * h_t

其中:

  • g 是可学习的门控参数
  • E(v_t) 是离散 token embedding
  • h_t 是隐藏状态表征

与 TARPO 的区别

| 维度 | HRPO | tarpo | |------|------|------| | 融合方式 | 密集融合(每步都混合) | 二值切换hard 或 soft | | 路由器 | 可学习门控 | 轻量级动作头 | | 决策粒度 | 连续权重 | 离散二值 | | 训练动态 | 后期易出现熵飙升 | 训练稳定 | | 随机性来源 | 离散 token 采样 | 路由决策采样 |

训练动态问题

TARPO 论文发现 HRPO 在后期训练阶段会出现熵飙升现象token entropy 异常上升可能源于门控机制的连续权重导致的不稳定优化。TARPO 的离散二值路由更好地保持了训练稳定性。

参考