20260617:目前有914 页
This commit is contained in:
65
reviews/ticks-to-flows-review-20260617.md
Normal file
65
reviews/ticks-to-flows-review-20260617.md
Normal file
@@ -0,0 +1,65 @@
|
||||
---
|
||||
title: "Ticks-to-Flows 论文集成 Review"
|
||||
created: 2026-06-17
|
||||
type: review
|
||||
---
|
||||
|
||||
# 📌 基本信息
|
||||
|
||||
- **论文**:From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments
|
||||
- **作者**:Saket Tiwari, Tejas Kotwal, George Konidaris — Brown University
|
||||
- **发表**:ICLR 2026
|
||||
- **领域**:cs.LG / RL Theory / Stochastic Control
|
||||
- **arXiv**:2606.04275v1 (2026-06-02)
|
||||
|
||||
# 🎯 核心概念
|
||||
|
||||
1. **[[continuous-time-rl|连续时间 RL]]** — 将 RL 建模为连续时间 SDE,与离散 ticks 范式相对
|
||||
2. **[[stochastic-differential-equation|SDE]]** — 数学骨架,漂移项 + 扩散项 = 连续动态
|
||||
3. **[[two-time-scale-process|双时间尺度过程]]** — 环境时间(t)+ 梯度时间(τ),标题 "Ticks to Flows" 的来源
|
||||
4. **[[exploratory-dynamics|探索动力学]]** — 策略噪声 + 环境噪声的 SDE 模型,优于传统加性噪声
|
||||
5. **[[linearized-neural-network|线性化 NN]] / [[neural-tangent-kernel|NTK]] / [[infinite-width-limit|无限宽度极限]]** — 使 NN 分析可行的理论"三件套"
|
||||
6. **[[martingale-clt|鞅 CLT]]** — 证明梯度更新服从条件高斯分布的核心工具
|
||||
|
||||
# 🔗 概念网络
|
||||
|
||||
**核心连接**:
|
||||
```
|
||||
SDE ← Wiener Process ← Itô Calculus
|
||||
↓
|
||||
Control-Affine MDP → Continuous-Time RL ← Exploratory Dynamics
|
||||
↓ ↓
|
||||
Two Time-Scale Process ←────────── LQR (验证)
|
||||
↓
|
||||
Infinite-Width Limit → NTK → Linearized NN → Martingale CLT
|
||||
↓
|
||||
Theorem 6.1: 5-variable closed system
|
||||
```
|
||||
|
||||
**与前次 TARPO 集成的关联**:
|
||||
- [[ticks-to-flows]] 提供 RL 的**连续时间理论视角**(从下往上)
|
||||
- [[tarpo|TARPO]] 提供 RL 的**离散时间算法视角**(从上往下)
|
||||
- 两者共享 [[reinforcement-learning|强化学习]]、actor-critic、策略梯度等基础概念
|
||||
- 前者侧重数学严格性(SDE/鞅),后者侧重工程有效性(路由/混合推理)
|
||||
|
||||
**概念类型覆盖**:
|
||||
- 随机分析三件套:SDE + Wiener + Itô(全新数学基础概念)
|
||||
- 深度学习理论三件套:NTK + 线性化 NN + 无限宽度(全新理论概念)
|
||||
- 控制理论:LQR + 控制仿射 MDP(全新应用概念)
|
||||
|
||||
# 📚 Wiki 集成
|
||||
|
||||
- **新增页面**:14 个(1 论文 + 12 概念 + 1 raw 存档)
|
||||
- **链接密度**:核心概念平均 5-7 个交叉引用
|
||||
- **网络完整**:待验证
|
||||
- **总规模**:841 → 854 页(+13,review 不计入)
|
||||
- **全新数学子领域**:随机分析(SDE/Itô/Wiener/鞅 CLT)——此前 wiki 未覆盖
|
||||
- **与现有知识关联**:通过与 [[reinforcement-learning]]、[[neural-tangent-kernel|NTK]]、[[linear-quadratic-regulator|LQR]] 等已有页面形成桥梁
|
||||
|
||||
# 💡 关键洞察
|
||||
|
||||
1. **双时间尺度是最优雅的理论贡献**:RL 难分析的根源是"数据分布随梯度变化"——双时间尺度公式化将这个问题转化为两个耦合 SDE 的分析,t 快 τ 慢,结构上类似于随机近似中的 two-time-scale SA
|
||||
|
||||
2. **NTK 作为 RL 理论的桥梁**:监督学习理论中发达的 NTK 框架被首次系统地移植到 RL 中——Itô-Taylor 展开将状态表示为参数多项式,NTK 提供局部几何,鞅 CLT 给出极限分布——三者结合构成了完整的分析链条
|
||||
|
||||
3. **封闭系统的美学**:Theorem 6.1 的结论是"仅 5 个变量"——在高度非线性、无限维的 NN 空间中,学习动态降维到仅 5 个耦合方程。这是理论物理学家追求的那种优雅降维
|
||||
Reference in New Issue
Block a user