Files
myWiki/concepts/linear-quadratic-regulator.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
线性二次调节器 (Linear Quadratic Regulator) 2026-06-17 2026-06-17 concept
control-theory
continuous-control
benchmark
optimization
raw/papers/tiwari-ticks-to-flows-2026.md
high

线性二次调节器 (Linear Quadratic Regulator)

LQR 是最优控制理论中最经典的基准问题——系统动力学为线性,代价函数为二次型。在 ticks-to-flows 中用作验证实验环境。

问题形式

动力学:s_{t+1} = A s_t + B a_t + noise

代价(负奖励):cost = Σ (s_t^T Q s_t + a_t^T R a_t)

目标:找到使累积代价最小的线性策略 a_t = -K s_t

在实验中的配置

Ticks-to-Flows 使用的简化 LQR

g(s) = s自驱动漂移
h(s) = 1动作通道
σ(s) = 0.1(小噪声)
r(s) = -500 s^2强惩罚偏离原点
s_0 = 2.0, T = 1, Δt = 0.02

扩展到多维 ds = 2, 8, 32。

为什么选择 LQR

  1. 有解析解Ricatti 方程给出最优策略
  2. 可验证性:理论预测可与最优解对比
  3. 线性化兼容LQR 本身的线性结构与 NN 的 linearized-neural-network 一致
  4. 标度性:可测试不同状态维度上的扩展性

与理论结果的关联

Theorem 6.1 的预测5 变量封闭系统)在 LQR 上得到经验验证:

  • 理论模型为离散模拟(图 6 中黑色虚线)与经验 actor-critic 轨迹高度吻合
  • 1D 到 32D 均能学到接近最优的策略

参考