状态空间模型

State Space Models

在机器学习和统计建模中，SSM 是一类非常常用的动态模型，用于表示系统随时间演化（或随其他序列索引变化）的过程。它将系统的“内在状态”与观测到的“输出”分离，并通过状态转移与观测方程来刻画整体系统的动态行为。

物理

以弹簧-质量-阻尼系统 (SMD)为例，在给定一个力作为系统输入量 $u (t)$ ，质量块 $M$ 随时间变化的位移 $x$ ，速度为 $v$ ，其中 $x$ 作为系统的输出量 $y (t)$

系统的状态向量可以表示为：

X = [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] = [\begin{matrix} x \\ v \end{matrix}] = [\begin{matrix} y (t) \\ \frac{d y (t)}{d t} \end{matrix}]

根据牛顿第二定律： $F = M a$ ，弹簧提供的力为 $- k x$ ，阻尼器提供的力为 $- b v$ ，外部力为 $u (t)$ ，有：

M a = - k x - b v + u (t)

M \frac{d^{2} x}{d t^{2}} + b \frac{d x}{d t} + k x = u (t)

可以表示为：

M {\dot{x}}_{2} + b x_{2} + k x_{1} = u (t)

求解该微分方程，可得：

{\dot{x}}_{1} = x_{2}

{\dot{x}}_{2} = \frac{u (t) - b x_{2} - k x_{1}}{M}

即：

\dot{X} = [\begin{matrix} {\dot{x}}_{1} \\ {\dot{x}}_{2} \end{matrix}] = [\begin{matrix} x_{2} \\ \frac{u (t) - b x_{2} - k x_{1}}{M} \end{matrix}]

即：

\dot{X} = [\begin{matrix} 0 & 1 \\ - \frac{k}{M} & - \frac{b}{M} \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] + [\begin{matrix} 0 \\ \frac{1}{M} \end{matrix}] u (t)

输出 $y (t)$ 也可以写成：

y = [\begin{matrix} 1 & 0 \end{matrix}] [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] + [\begin{matrix} 0 \end{matrix}] u (t)

卡尔曼滤波

基本动态系统模型

卡尔曼滤波模型假设 $k + 1$ 时刻的真实状态是从 $k$ 时刻的状态演化而来，符合状态方程：

x_{k} = F_{k} x_{k - 1} + B_{k} u_{K} + w_{k}

其中：

Fk 是作用在 x 上的状态变换模型
B_k 是作用在控制器向量 $u_{k}$ 上的输入-控制模型
w_k 是过程噪声，并假定其符合均值为 0，协方差矩阵为 $Q_{k}$ 的多元正态分布

算法逻辑

卡尔曼滤波器的状态由以下变量表示：

${\hat{X}}_{k | k} = E (X_{k} | Y_{1}, Y_{2}, \dots, Y_{k})$ 表示在时刻 $k$ 的状态的估计
${\hat{X}}_{k | k - 1} = E (X_{k - 1} | Y_{1}, Y_{2}, \dots, Y_{k - 1})$ 表示已知过去 $k - 1$ 个时刻的状态，对 $k$ 时刻状态的预测。
${\hat{P}}_{k | k}$ 为后验估计误差协方差矩阵，度量估计值的精确程度。

1. 预测 ${\hat{X}}_{k - 1 | k - 1} \Rightarrow {\hat{X}}_{k | k - 1}$

预测步骤中，根据上一时刻的状态和控制量，预测当前时刻的状态。这个预测值是一个估计值，因为它还没有考虑当前时刻的观测值。预测值的误差协方差矩阵是通过上一时刻的误差协方差矩阵和系统噪声协方差矩阵计算得到的。

{\hat{x}}_{k | k - 1} = F_{k} {\hat{x}}_{k - 1} + B_{k} u_{k}

P_{k | k - 1} = F_{k} P_{k - 1 | k - 1} F_{k}^{T} + Q_{k}

2. 更新 ${\hat{X}}_{n | n - 1} \Rightarrow {\hat{X}}_{n | n}$

更新步骤中，根据当前时刻的观测值和预测值，计算出当前时刻的状态估计值。这个估计值是一个更加准确的估计值，因为它已经考虑了当前时刻的观测值。状态估计值的误差协方差矩阵是通过预测步骤中计算得到的误差协方差矩阵、观测噪声协方差矩阵和卡尔曼增益计算得到的。

K_{k} = P_{k ∣ k - 1} H_{k}^{T} {(H_{k} P_{k ∣ k - 1} H_{k}^{T} + R_{k})}^{- 1}

{\hat{x}}_{k ∣ k} = {\hat{x}}_{k ∣ k - 1} + K_{k} (z_{k} - H_{k} {\hat{x}}_{k ∣ k - 1})

P_{k ∣ k} = (I - K_{k} H_{k}) P_{k ∣ k - 1}

以上五个公式为卡尔曼滤波的核心公式。更新步骤更加简洁便于理解的形式为，首先计算以下三个量：

{\begin{cases} {\hat{y}}_{k} = z_{k} - H_{k} {\hat{x}}_{k ∣ k - 1} & (测量残差) \\ S_{k} = H_{k} P_{k ∣ k} H_{k}^{T} + R_{k} & (测量残差协方差) \\ K_{k} = P_{k ∣ k - 1} H_{k}^{T} S_{k}^{- 1} & (最优卡尔曼增益) \end{cases}

然后用它们来更新滤波器变量：

{\begin{cases} {\hat{x}}_{k ∣ k} = {\hat{x}}_{k ∣ k - 1} + K_{k} {\hat{y}}_{k} & (更新的状态估计) \\ P_{k ∣ k} = (I - K_{k} H_{k}) P_{k ∣ k - 1} & (更新的协方差估计) \end{cases}

两个方程：状态方程与输出方程

RNN

状态方程

h (t) = A h (t - 1) + B x (t)

输出方程

y (t) = C h (t) + D x (t)

其中：

$A \in R^{d \times d}$ ：状态转移矩阵
$B \in R^{d \times m}$ ：输入映射矩阵
$C \in R^{p \times d}$ ：观测矩阵
$D \in R^{d \times m}$ ：前馈矩阵

离散化

在实际应用中往往是离散的数据，因此要对模型进行离散化表示。

欧拉法

双线性（bilinear method）

采用双线性变换将连续 SSM 转换为离散形式：

x_{k} = \overset{―}{A} x_{k - 1} + \overset{―}{B} u_{k}

y_{k} = C x_{k} + D u_{k}

\overset{―}{A} = (I - Δ / 2 \cdot A)^{- 1} (I + Δ / 2 \cdot A)

\overset{―}{B} = (I - Δ / 2 \cdot A)^{- 1} Δ B

零阶保持法（Zero-Order Hold Technoloty）

SSM 的 RNN 表示

SSM 的卷积表示

y_{k} = x_{k} * k e r n e l

假设初始状态 $x_{- 1} = 0$ ，有：

\begin{aligned} y_{0} & = C \overset{―}{B} u_{0} \\ y_{1} & = C \overset{―}{A} \overset{―}{B} u_{0} + C \overset{―}{B} u_{1} \\ y_{2} & = C {\overset{―}{A}}^{2} \overset{―}{B} u_{0} + C \overset{―}{A} \overset{―}{B} u_{1} + C \overset{―}{B} u_{2} \\ \dots \\ y_{k} & = C {\overset{―}{A}}^{k} \overset{―}{B} u_{0} + C {\overset{―}{A}}^{k - 1} \overset{―}{B} u_{1} + \dots + C \overset{―}{A} \overset{―}{B} u_{k - 1} + C \overset{―}{B} u_{k} \end{aligned}

将其写成卷积表达：

y_{k} = [\begin{array}{llll} C {\overset{―}{A}}^{k} \overset{―}{B} & C {\overset{―}{A}}^{k - 1} \overset{―}{B} & \dots & C \overset{―}{B} \end{array}] [\begin{matrix} u_{0} \\ u_{1} \\ \dots \\ u_{k} \end{matrix}] = \overset{―}{K} u

$\overset{―}{K}$ 被称为 SSM 卷积核

S4（结构化序列状态空间模型）

Structured State Space for Sequences

Gu A, Goel K, Ré C. Efficiently modeling long sequences with structured state spaces[J]. arXiv preprint arXiv:2111.00396, 2021.

https://srush.github.io/annotated-s4/

ICLR2022

核心改进：

使用低秩修正来优化矩阵 $A$ 的性质，使其更容易对角化。
使用 HiPPO 矩阵解决长距离依赖问题
将连续 SSM 转换为离散形式

HiPPO 矩阵：

A_{n k} = - {\begin{cases} (2 n + 1)^{1 / 2} (2 k + 1)^{1 / 2} & if n > k \\ n + 1 & if n = k \\ 0 & if n < k \end{cases}

S4 的参数化

为了避免 HiPPO 矩阵运算量过大，作者提出将 HiPPO 矩阵转换为：正规矩阵+低秩矩阵

NPLR(Normal Plus Low-Rank)

A = V Λ V^{*} - P Q^{⊤} = V (Λ - (V^{*} P) {(V^{*} Q)}^{*}) V^{*}

矩阵 $A$ 转换为 NPLR 后：

RNN 形式
- S4 1 个 step 的计算复杂度依旧为 $O (N)$
卷积形式
- $\overset{―}{K}$ 计算复杂度从 $O (N^{2} L)$ 降低为 $O (N + L)$

S4D（对角状态空间模型）

Gu A, Goel K, Gupta A, et al. On the parameterization and initialization of diagonal state space models[J]. Advances in Neural Information Processing Systems, 2022, 35: 35971-35983.

S4D 模型是一种对角 SSM，它结合了 S4 的计算和参数化优势以及 DSS 的初始化方法。

S4D 模型的核心在于其对角状态矩阵的参数化和初始化，这使得模型在保持简单性的同时，也具备了强大的性能。

S4D 模型的卷积核 $\overset{―}{K}$ 可以通过 Vandermonde 矩阵乘法来高效计算：

\begin{aligned} \overset{―}{K} & = [\begin{array}{llll} C \overset{―}{B} & C \overset{―}{A} \overset{―}{B} & \dots & C {\overset{―}{A}}^{L - 1} \overset{―}{B} \end{array}] \\ = [\begin{array}{lll} {\overset{―}{B}}_{0} C_{0} & \dots & {\overset{―}{B}}_{N - 1} C_{N - 1} \end{array}] [\begin{array}{ccccc} 1 & {\overset{―}{A}}_{0} & {\overset{―}{A}}_{0}^{2} & \dots & {\overset{―}{A}}_{0}^{L - 1} \\ 1 & {\overset{―}{A}}_{1} & {\overset{―}{A}}_{1}^{2} & \dots & {\overset{―}{A}}_{1}^{L - 1} \\ ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & {\overset{―}{A}}_{N - 1} & {\overset{―}{A}}_{N - 1}^{2} & \dots & {\overset{―}{A}}_{N - 1}^{L - 1} \end{array}] \\ = ({\overset{―}{B}}^{⊤} \circ C) \cdot V_{L} (\overset{―}{A}) \end{aligned}

S5

Smith J T H, Warrington A, Linderman S W. Simplified state space layers for sequence modeling[J]. arXiv preprint arXiv:2208.04933, 2022.

ICLR2023

S4 采用的离散 SSM 形式为：

x_{k} = \overset{―}{A} x_{k - 1} + \overset{―}{B} u_{k}

该形式为单输入单输出，对于输入向量 $u = [u_{1}, u_{2}, \dots, u_{k}]$ ，S4 直接对每个分量独立地应用上述公式，然后将结果拼接起来。

而 S5 采用了多输入多输出（MIMO）形式。

S6（Mamba）

见Mamba

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

状态空间模型

State Space Models

物理

卡尔曼滤波

基本动态系统模型

算法逻辑

1. 预测 ${\hat{X}}_{k - 1 | k - 1} \Rightarrow {\hat{X}}_{k | k - 1}$

2. 更新 ${\hat{X}}_{n | n - 1} \Rightarrow {\hat{X}}_{n | n}$

两个方程：状态方程与输出方程

状态方程

输出方程

离散化

欧拉法

双线性（bilinear method）

零阶保持法（Zero-Order Hold Technoloty）

SSM 的 RNN 表示

SSM 的卷积表示

S4（结构化序列状态空间模型）

Structured State Space for Sequences

S4 的参数化

S4D（对角状态空间模型）

S5

S6（Mamba）

状态空间模型 ​

State Space Models ​

物理 ​

卡尔曼滤波 ​

基本动态系统模型 ​

算法逻辑 ​

1. 预测 X^k−1|k−1⇒X^k|k−1 ​

2. 更新 X^n|n−1⇒X^n|n ​

两个方程：状态方程与输出方程 ​

状态方程 ​

输出方程 ​

离散化 ​

欧拉法 ​

双线性（bilinear method） ​

零阶保持法（Zero-Order Hold Technoloty） ​

SSM 的 RNN 表示 ​

SSM 的卷积表示 ​

S4（结构化序列状态空间模型） ​

Structured State Space for Sequences ​

S4 的参数化 ​

S4D（对角状态空间模型） ​

S5 ​

S6（Mamba） ​

状态空间模型

State Space Models

物理

卡尔曼滤波

基本动态系统模型

算法逻辑

1. 预测 ${\hat{X}}_{k - 1 | k - 1} \Rightarrow {\hat{X}}_{k | k - 1}$

2. 更新 ${\hat{X}}_{n | n - 1} \Rightarrow {\hat{X}}_{n | n}$

两个方程：状态方程与输出方程

状态方程

输出方程

离散化

欧拉法

双线性（bilinear method）

零阶保持法（Zero-Order Hold Technoloty）

SSM 的 RNN 表示

SSM 的卷积表示

S4（结构化序列状态空间模型）

Structured State Space for Sequences

S4 的参数化

S4D（对角状态空间模型）

S5

S6（Mamba）