Files
myWiki/reviews/tarpo-review-20260617.md

2.8 KiB
Raw Blame History

title, created, type
title created type
TARPO 论文集成 Review 2026-06-17 review

📌 基本信息

  • 论文TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
  • 作者Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
  • 领域cs.CL / LLM Reasoning / RL
  • arXiv2606.05859v1 (2026-06-04)
  • 代码https://github.com/NKU-LITI/TARPO-master

🎯 核心概念

  1. latent-reasoning — 将推理过程从离散 token 空间转移到连续表征空间,克服 CoT 的信息瓶颈
  2. action-routing-policy — 将推理模式选择hard/soft形式化为二元离散 RL 策略
  3. action-head-router — 仅 2d+2 参数的轻量级路由决策模块
  4. token-wise-routing — 每步独立决定推理模式,细粒度自适应切换
  5. soft-token / hard-token — 连续加权 embedding vs 离散 token 生成的两种推理单元
  6. hybrid-reasoning — 密集融合 vs 模式切换两条技术路线的系统对比

🔗 概念网络

核心连接TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT

扩展网络

新增概念12 个(均为全新,此前 wiki 未覆盖 latent reasoning 这一子领域)

📚 Wiki 集成

  • 新增页面14 个1 论文 + 12 概念 + 1 raw 存档)
  • 链接密度:核心概念平均 6-8 个交叉引用
  • 网络完整:待验证
  • 总规模826 → 839 页(+13review 不计入)

💡 关键洞察

  1. 结构探索 > 表征探索TARPO 的核心洞察是,与其在连续表征内部注入噪声(重参数化路线),不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力

  2. 最小侵入性设计:动作头仅 2d+2 参数,不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式,适用于其他需要在标准架构上增强决策能力的场景

  3. 完整的方法谱系:本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT起点到 HRPO密集融合到 TARPO二值切换以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础