1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 四旋翼轨迹跟踪 (Quadrotor Trajectory Following) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
四旋翼轨迹跟踪 (Quadrotor Trajectory Following)
四旋翼轨迹跟踪是repmt-sac的验证场景——学习一个通用控制策略,能跟踪多样化的飞行轨迹。
状态空间
s = [p, v, q, ω] ∈ R^13
- p ∈ R³:位置
- v ∈ R³:线速度
- q ∈ H:单位四元数(姿态)
- ω ∈ R³:体坐标系角速度
任务参数化
每个轨迹 τ 是 Legendre 多项式的系数向量:
f(t) = Σ c_i · ψ_i(t), ψ_i = Legendre 基
- 源任务:低阶基
- ID 任务:基的凸组合
- OOD 任务:高阶多项式(外推)
奖励函数
r(s,a,τ) = -(w₁‖p-p_ref‖² + w₂‖v-v_ref‖² + w₃·h(s))
惩罚跟踪误差和控制力度。
为什么适合多任务 RL
- 共享动力学:同一架四旋翼的物理参数在所有轨迹上不变
- 任务变化奖励:不同轨迹 τ 仅改变 p_ref, v_ref
- 状态连续:13 维连续状态 + 4 维连续动作
实验结果
RepMT-SAC 在 IsaacSim 上优于 SAC 和 CTRL-SAC:
- ID 零样本:高达 +30% 奖励提升
- OOD 少样本:冻结 φ 后快速适应