Files
myWiki/reviews/tarpo-review-20260617.md

49 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "TARPO 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
- **作者**Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
- **领域**cs.CL / LLM Reasoning / RL
- **arXiv**2606.05859v1 (2026-06-04)
- **代码**https://github.com/NKU-LITI/TARPO-master
# 🎯 核心概念
1. **[[latent-reasoning|潜在推理]]** — 将推理过程从离散 token 空间转移到连续表征空间,克服 CoT 的信息瓶颈
2. **[[action-routing-policy|动作路由策略]]** — 将推理模式选择hard/soft形式化为二元离散 RL 策略
3. **[[action-head-router|动作头路由器]]** — 仅 2d+2 参数的轻量级路由决策模块
4. **[[token-wise-routing|逐 token 路由]]** — 每步独立决定推理模式,细粒度自适应切换
5. **[[soft-token]] / [[hard-token]]** — 连续加权 embedding vs 离散 token 生成的两种推理单元
6. **[[hybrid-reasoning|混合推理]]** — 密集融合 vs 模式切换两条技术路线的系统对比
# 🔗 概念网络
**核心连接**TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT
**扩展网络**
- 方法对比链COCONUT纯潜在→ HRPO密集融合→ TARPO二值切换
- 探索路线reparameterization-exploration表征级↔ gumbel-softmax梯度估计
- 关联已有概念:[[chain-of-thought]]、[[grpo]]、[[group-relative-policy-optimization]]、[[reinforcement-learning]]
**新增概念**12 个(均为全新,此前 wiki 未覆盖 latent reasoning 这一子领域)
# 📚 Wiki 集成
- **新增页面**14 个1 论文 + 12 概念 + 1 raw 存档)
- **链接密度**:核心概念平均 6-8 个交叉引用
- **网络完整**:待验证
- **总规模**826 → 839 页(+13review 不计入)
# 💡 关键洞察
1. **结构探索 > 表征探索**TARPO 的核心洞察是,与其在连续表征内部注入噪声(重参数化路线),不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力
2. **最小侵入性设计**:动作头仅 2d+2 参数,不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式,适用于其他需要在标准架构上增强决策能力的场景
3. **完整的方法谱系**:本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT起点到 HRPO密集融合到 TARPO二值切换以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础