2.8 KiB
2.8 KiB
title, created, type
| title | created | type |
|---|---|---|
| TARPO 论文集成 Review | 2026-06-17 | review |
📌 基本信息
- 论文:TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
- 作者:Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
- 领域:cs.CL / LLM Reasoning / RL
- arXiv:2606.05859v1 (2026-06-04)
- 代码:https://github.com/NKU-LITI/TARPO-master
🎯 核心概念
- latent-reasoning — 将推理过程从离散 token 空间转移到连续表征空间,克服 CoT 的信息瓶颈
- action-routing-policy — 将推理模式选择(hard/soft)形式化为二元离散 RL 策略
- action-head-router — 仅 2d+2 参数的轻量级路由决策模块
- token-wise-routing — 每步独立决定推理模式,细粒度自适应切换
- soft-token / hard-token — 连续加权 embedding vs 离散 token 生成的两种推理单元
- hybrid-reasoning — 密集融合 vs 模式切换两条技术路线的系统对比
🔗 概念网络
核心连接:TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT
扩展网络:
- 方法对比链:COCONUT(纯潜在)→ HRPO(密集融合)→ TARPO(二值切换)
- 探索路线:reparameterization-exploration(表征级)↔ gumbel-softmax(梯度估计)
- 关联已有概念:chain-of-thought、grpo、group-relative-policy-optimization、reinforcement-learning
新增概念:12 个(均为全新,此前 wiki 未覆盖 latent reasoning 这一子领域)
📚 Wiki 集成
- 新增页面:14 个(1 论文 + 12 概念 + 1 raw 存档)
- 链接密度:核心概念平均 6-8 个交叉引用
- 网络完整:待验证
- 总规模:826 → 839 页(+13,review 不计入)
💡 关键洞察
-
结构探索 > 表征探索:TARPO 的核心洞察是,与其在连续表征内部注入噪声(重参数化路线),不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力
-
最小侵入性设计:动作头仅 2d+2 参数,不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式,适用于其他需要在标准架构上增强决策能力的场景
-
完整的方法谱系:本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT(起点)到 HRPO(密集融合)到 TARPO(二值切换),以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础