20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,48 @@
---
title: "TARPO 论文集成 Review"
created: 2026-06-17
type: review
---
# 📌 基本信息
- **论文**TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization
- **作者**Liting Zhang, Shiwan Zhao, Xuyang Zhao, Zichen Xu, Jianye Wang, Qicheng Li — 南开大学 TMCC
- **领域**cs.CL / LLM Reasoning / RL
- **arXiv**2606.05859v1 (2026-06-04)
- **代码**https://github.com/NKU-LITI/TARPO-master
# 🎯 核心概念
1. **[[latent-reasoning|潜在推理]]** — 将推理过程从离散 token 空间转移到连续表征空间,克服 CoT 的信息瓶颈
2. **[[action-routing-policy|动作路由策略]]** — 将推理模式选择hard/soft形式化为二元离散 RL 策略
3. **[[action-head-router|动作头路由器]]** — 仅 2d+2 参数的轻量级路由决策模块
4. **[[token-wise-routing|逐 token 路由]]** — 每步独立决定推理模式,细粒度自适应切换
5. **[[soft-token]] / [[hard-token]]** — 连续加权 embedding vs 离散 token 生成的两种推理单元
6. **[[hybrid-reasoning|混合推理]]** — 密集融合 vs 模式切换两条技术路线的系统对比
# 🔗 概念网络
**核心连接**TARPO → latent-reasoning → continuous-representation → soft-token / hard-token → token-wise-routing → action-routing-policy → action-head-router → GRPO → HRPO → COCONUT
**扩展网络**
- 方法对比链COCONUT纯潜在→ HRPO密集融合→ TARPO二值切换
- 探索路线reparameterization-exploration表征级↔ gumbel-softmax梯度估计
- 关联已有概念:[[chain-of-thought]]、[[grpo]]、[[group-relative-policy-optimization]]、[[reinforcement-learning]]
**新增概念**12 个(均为全新,此前 wiki 未覆盖 latent reasoning 这一子领域)
# 📚 Wiki 集成
- **新增页面**14 个1 论文 + 12 概念 + 1 raw 存档)
- **链接密度**:核心概念平均 6-8 个交叉引用
- **网络完整**:待验证
- **总规模**826 → 839 页(+13review 不计入)
# 💡 关键洞察
1. **结构探索 > 表征探索**TARPO 的核心洞察是,与其在连续表征内部注入噪声(重参数化路线),不如在推理模式选择层面引入随机性——这更直接地保留了离散 token 采样的天然探索能力
2. **最小侵入性设计**:动作头仅 2d+2 参数,不改动 Transformer 架构——这种"附加而非修改"的设计理念是可推广的模式,适用于其他需要在标准架构上增强决策能力的场景
3. **完整的方法谱系**:本次集成一次性构建了 latent reasoning 领域的完整概念网络——从 COCONUT起点到 HRPO密集融合到 TARPO二值切换以及重参数化的平行路线——为后续该方向的论文集成奠定了密集的链接基础