SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.8 KiB

Raw Blame History

title, created, type

title	created	type
TARPO 论文集成 Review	2026-06-17	review

📌 基本信息

论文：TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
作者：Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
领域：cs.CL / LLM Reasoning / RL
arXiv：2606.05859v1 (2026-06-04)
代码：https://github.com/NKU-LITI/TARPO-master

🎯 核心概念

latent-reasoning — 将推理过程从离散 token 空间转移到连续表征空间，克服 CoT 的信息瓶颈
action-routing-policy — 将推理模式选择（hard/soft）形式化为二元离散 RL 策略
action-head-router — 仅 2d+2 参数的轻量级路由决策模块
token-wise-routing — 每步独立决定推理模式，细粒度自适应切换
soft-token / hard-token — 连续加权 embedding vs 离散 token 生成的两种推理单元
hybrid-reasoning — 密集融合 vs 模式切换两条技术路线的系统对比

🔗 概念网络

核心连接：TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT

扩展网络：

方法对比链：COCONUT（纯潜在）→ HRPO（密集融合）→ TARPO（二值切换）
探索路线：reparameterization-exploration（表征级）↔ gumbel-softmax（梯度估计）
关联已有概念：chain-of-thought、grpo、group-relative-policy-optimization、reinforcement-learning

新增概念：12 个（均为全新，此前 wiki 未覆盖 latent reasoning 这一子领域）

📚 Wiki 集成

新增页面：14 个（1 论文 + 12 概念 + 1 raw 存档）
链接密度：核心概念平均 6-8 个交叉引用
网络完整：待验证
总规模：826 → 839 页（+13，review 不计入）

💡 关键洞察

结构探索 > 表征探索：TARPO 的核心洞察是，与其在连续表征内部注入噪声（重参数化路线），不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力
最小侵入性设计：动作头仅 2d+2 参数，不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式，适用于其他需要在标准架构上增强决策能力的场景
完整的方法谱系：本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT（起点）到 HRPO（密集融合）到 TARPO（二值切换），以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础

2.8 KiB Raw Blame History Unescape Escape