谱聚类

Spectral Clustering

谱聚类是一种基于图论和线性代数的聚类方法，利用数据点之间的相似性来进行聚类。对比 k-means 算法，谱聚类对数据分布的适应性更强，能够有效地处理非凸形状的数据集，同时聚类的计算量也小很多。

定义

对于图 $G = (V, E)$ ，其中 $V = v_{1}, v_{2}, \dots, v_{n}$ 为点的集合， $E = {w_{i j}}$ 为边的集合， $w_{i j}$ 为边的权重

在谱聚类中，相似度矩阵的构建方法直接影响最终聚类效果，常见的三种策略如下：

全连接法
ε-近邻法
k-近邻法

一般采用全连接法，即所有点对计算相似度，这个时候图 $G$ 的邻接矩阵 $W$ 与相似度矩阵 $S$ 相同。

w_{i j} = s_{i j} = \exp (- \frac{{‖ x_{i} - x_{j} ‖}_{2}^{2}}{2 σ^{2}})

W = S = (\begin{array}{ccc} w_{11} & \dots & w_{1 n} \\ ⋮ & ⋮ \\ w_{n 1} & \dots & w_{n n} \end{array})

对于图中的每一个点 $v_{i}$ ，定义它的度 $d_{i}$ 为和它相连的所有边的权重之和：

d_{i} = \sum_{j = 1}^{n} w_{i j}

可以得到一个 $n \times n$ 的度矩阵 $D$ ，它是一个对角矩阵，对应第 $i$ 行的第 $i$ 个点的度数：

D = (\begin{array}{ccc} d_{1} & \dots & \dots \\ ⋮ & d_{2} & \dots \\ ⋮ & ⋮ & d_{n} \end{array})

假设聚类的目标为 $K$ 个，对图进行分割：

Cut (V) = Cut (A_{1}, A_{2}, \dots, A_{K}) = \frac{1}{2} \sum_{k = 1}^{K} W (A_{K}, \overset{―}{A_{K}})

我们的目标就是求解： $min_{A_{K}} Cut (V)$

但这种容易出现问题：选择一个权重最小的边缘点进行分割就可以最小化目标，但我们希望的是 $A_{1}, A_{2}, \dots, A_{K}$ 都相对来说比较“大”。

两个常用的解决方法为：

RatioCut

RatioCut (V) = \frac{1}{2} \sum_{k = 1}^{K} \frac{W (A_{k}, \overset{―}{A_{k}})}{| A_{k} |}

$| A_{k} |$ 表示 $A$ 中包含顶点的数目

NCut

NCut (V) = \frac{1}{2} \sum_{k = 1}^{K} \frac{W (A_{k}, \overset{―}{A_{k}})}{\sum_{i \in A_{k}} d_{i}}

RatioCut 直接用子集元素个数来衡量集合大小，而 NCut 则用了子集内所有元素的度来衡量大小。

拉普拉斯矩阵

拉普拉斯矩阵 (Laplacian Matrix) ，也称为基尔霍夫矩阵，是图的一种矩阵表示形式，对于图 $G$ 其定义为：

L = D - W

其标准化形式为：

L = D^{- \frac{1}{2}} (D - W) D^{- \frac{1}{2}}

对于任意的向量 $f$ ，有：

f^{⊤} L f = \frac{1}{2} \sum_{i, j}^{n} w_{i j} {(f_{i} - f_{j})}^{2}

RatioCut 求解

引入 $A_{1}, A_{2}, \dots, A_{K}$ 的指示向量 $h_{j} \in {h_{1}, h_{2}, \dots, h_{K}}$ ， $v_{i}$ 表示其中的第 $n$ 个样本，定义：

h_{i j} = {\begin{cases} 0 & v_{i} \notin A_{j} \\ \frac{1}{\sqrt{| A_{j} |}} & v_{i} \in A_{j} \end{cases}

所有 $h_{j}$ 组成矩阵 $H = [h_{1}, h_{2}, \dots, h_{K}] \in R^{n \times K}$

有：

H^{⊤} H = I_{K}

对于 $h_{j}$ ：

\begin{aligned} h_{j}^{⊤} L h_{j} & = \frac{1}{2} \sum_{m = 1}^{n} \sum_{n = 1}^{n} w_{m n} (h_{m j} - h_{n j})^{2} \\ = \frac{1}{2} (\sum_{m \in A_{j}, n \notin A_{j}} w_{m n} (\frac{1}{\sqrt{| A_{j} |}} - 0)^{2} + \sum_{m \notin A_{j}, n \in A_{j}} w_{m n} (0 - \frac{1}{\sqrt{| A_{j} |}})^{2}) \\ = \frac{Cut (A_{k}, \overset{―}{A_{k}})}{| A_{j} |} \end{aligned}

例子

顶点集 $A_{j} = {v_{1}, v_{2}}$ ， $| A_{j} | = 2$

边权重 $w_{13} = w_{23} = 1$ ，其余为 $0$

计算：

Cut (A_{j}, \overset{―}{A_{j}}) = w_{13} + w_{23} = 2

h_{j} = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0]

有：

RatioCut (A_{1}, A_{2}, \dots, A_{K}) = \sum_{j = 1}^{K} h_{j}^{⊤} L h_{j} = Tr (H^{⊤} L H)

矩阵的迹

矩阵的迹表示的是特征值的和

Tr (A) = \sum_{i = 1}^{n} a_{i i} = a_{11} + a_{22} + \dots + a_{n n}

则我们的优化目标为：

\underset{H}{argmin} Tr (H^{⊤} L H) s.t. H^{⊤} H = I_{K}

这是一个NP-hard问题

argmin

argmin 函数用于找到使某个函数取得最小值的自变量（参数）

如对于函数 $f (x) = x^{2} - 4 x + 4$ ， $argmin (x) = 2$

参考论文A short theory of the Rayleigh-Ritz method 引入瑞利商极小化

我们的目标等价于找到 $L$ 的前 $K$ 个最小瑞利商，即最小特征值对应的特征向量：

Tr (H^{⊤} L H) = \sum_{j = 1}^{K} h_{j}^{⊤} L h_{j} = \sum_{j = 1}^{K} R (L, h_{j})

选择 $L$ 的前 K 个最小特征值对应的特征向量组成 $H$ ：

H = [u_{1}, u_{2}, \dots, u_{K}]

其中 $L u_{j} = λ_{j} u_{j}$ ，且 $λ_{1} \leq λ_{2} \leq \dots \leq λ_{K}$

最后，对 $H$ 的行向量进行k-means聚类，得到最终划分。

NCut 求解

类似的，有：

h_{i j} = {\begin{cases} 0 & v_{i} \notin A_{j} \\ \frac{1}{\sqrt{\sum_{i \in A_{k}} d_{i}}} & v_{i} \in A_{j} \end{cases}

有：

H^{⊤} D H = I_{K}

对于 $h_{j}$ ：

\begin{aligned} h_{j}^{⊤} L h_{j} & = \frac{1}{2} \sum_{m = 1}^{n} \sum_{n = 1}^{n} w_{m n} (h_{m j} - h_{n j})^{2} \\ = \frac{Cut (A_{k}, \overset{―}{A_{k}})}{\sum_{i \in A_{k}} d_{i}} \end{aligned}

优化目标为：

\underset{H}{argmin} Tr (H^{⊤} L H) s.t. H^{⊤} D H = I_{K}

令：

U = D^{\frac{1}{2}} H

则原问题转换为：

\underset{U}{argmin} Tr (U^{⊤} D^{- \frac{1}{2}} L D^{- \frac{1}{2}} U) s.t. U^{⊤} U = I_{K}

求出 $D^{- \frac{1}{2}} L D^{- \frac{1}{2}}$ 的最小的前 K 个特征值对应的特征向量，标准化后组成特征矩阵 $U$ ，进行一次k-means聚类即可。

⚛️ Next.js

📈 Seo

⚛️ React.js

🎨 css

📊 d3.js

🌿 Node.js

🌱 koa.js

🥘 GAMES101

🌌 three.js

🫧 WebGPU

🤖 Rasa

🥝 机器学习

🍿 强化学习

🍳 计算机视觉

🐬 mysql

🧪 jest

谱聚类

Spectral Clustering

定义

拉普拉斯矩阵

RatioCut 求解

NCut 求解

谱聚类 ​

Spectral Clustering ​

定义 ​

拉普拉斯矩阵 ​

RatioCut 求解 ​

NCut 求解 ​

谱聚类

Spectral Clustering

定义

拉普拉斯矩阵

RatioCut 求解

NCut 求解