SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

线性二次调节器 (Linear Quadratic Regulator)

2026-06-17

2026-06-17

concept

control-theory

continuous-control

benchmark

optimization

raw/papers/tiwari-ticks-to-flows-2026.md

high

线性二次调节器 (Linear Quadratic Regulator)

LQR 是最优控制理论中最经典的基准问题——系统动力学为线性，代价函数为二次型。在 ticks-to-flows 中用作验证实验环境。

问题形式

动力学：s_{t+1} = A s_t + B a_t + noise

代价（负奖励）：cost = Σ (s_t^T Q s_t + a_t^T R a_t)

目标：找到使累积代价最小的线性策略 a_t = -K s_t。

在实验中的配置

Ticks-to-Flows 使用的简化 LQR：

g(s) = s（自驱动漂移）
h(s) = 1（动作通道）
σ(s) = 0.1（小噪声）
r(s) = -500 s^2（强惩罚偏离原点）
s_0 = 2.0, T = 1, Δt = 0.02

扩展到多维 ds = 2, 8, 32。

为什么选择 LQR

有解析解：Ricatti 方程给出最优策略
可验证性：理论预测可与最优解对比
线性化兼容：LQR 本身的线性结构与 NN 的 linearized-neural-network 一致
标度性：可测试不同状态维度上的扩展性

与理论结果的关联

Theorem 6.1 的预测（5 变量封闭系统）在 LQR 上得到经验验证：

理论模型为离散模拟（图 6 中黑色虚线）与经验 actor-critic 轨迹高度吻合
1D 到 32D 均能学到接近最优的策略

参考