---
title: "线性二次调节器 (Linear Quadratic Regulator)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [control-theory, continuous-control, benchmark, optimization]
sources: [raw/papers/tiwari-ticks-to-flows-2026.md]
confidence: high
---

# 线性二次调节器 (Linear Quadratic Regulator)

LQR 是**最优控制理论中最经典的基准问题**——系统动力学为线性，代价函数为二次型。在 [[ticks-to-flows|Ticks-to-Flows]] 中用作验证实验环境。

## 问题形式

动力学：`s_{t+1} = A s_t + B a_t + noise`

代价（负奖励）：`cost = Σ (s_t^T Q s_t + a_t^T R a_t)`

目标：找到使累积代价最小的线性策略 `a_t = -K s_t`。

## 在实验中的配置

Ticks-to-Flows 使用的简化 LQR：

```
g(s) = s（自驱动漂移）
h(s) = 1（动作通道）
σ(s) = 0.1（小噪声）
r(s) = -500 s^2（强惩罚偏离原点）
s_0 = 2.0, T = 1, Δt = 0.02
```

扩展到多维 ds = 2, 8, 32。

## 为什么选择 LQR

1. **有解析解**：Ricatti 方程给出最优策略
2. **可验证性**：理论预测可与最优解对比
3. **线性化兼容**：LQR 本身的线性结构与 NN 的 [[linearized-neural-network|线性化]] 一致
4. **标度性**：可测试不同状态维度上的扩展性

## 与理论结果的关联

Theorem 6.1 的预测（5 变量封闭系统）在 LQR 上得到经验验证：
- 理论模型为离散模拟（图 6 中黑色虚线）与经验 actor-critic 轨迹高度吻合
- 1D 到 32D 均能学到接近最优的策略

## 参考

- [[control-affine-mdp|控制仿射 MDP]]
- [[ticks-to-flows|Ticks to Flows]]
- [[continuous-time-rl|连续时间 RL]]