GPS轨迹聚类算法TRACLUS介绍（四）

最新推荐文章于 2024-07-22 18:52:16 发布

NieBP

最新推荐文章于 2024-07-22 18:52:16 发布

阅读量4.8k

点赞数 4

分类专栏：高精度地图机器学习文章标签：平面几何学算法

本文链接：https://blog.csdn.net/weixin_43891708/article/details/121421258

版权

高精度地图同时被 2 个专栏收录

10 篇文章 11 订阅

订阅专栏

机器学习

3 篇文章 0 订阅

订阅专栏

线段聚类LINE SEGMENT CLUSTERING

这篇博客将说明TRACLUS算法的归组聚类阶段。首先，先讨论线段的密度属性；其次，介绍基于密度的聚类算法DBSCAN；然后，介绍计算线段聚类中代表性轨迹的方法；最后，介绍一中基于启发式的算法确定基于密度聚类算法的相关参数。

1、线段密度

1.1、距离函数回顾

距离函数是三种距离的加权和。首先，垂直距离主要测量从不同轨迹中提取的线段之间的位置差。其次，平行距离主要测量从同一轨迹中提取的线段之间的位置差。在一个轨迹中，两个相邻的线段之间的平行距离始终为零。第三，角度距离测量线段之间的方向差。
在这里插入图片描述

1.2、基于密度聚类的概念

通过下面六个定义总结基于密度的聚类。 $D$ 代表所有线段的集合。这里将DBSCAN中关于点的聚类扩展为关于线段的聚类。
$\varepsilon$ ：两个线段的距离函数的值。
$M i n L n s$ ：聚类集合的最小线段数量。
定义1：线段 $L_i\in{D}$ 的 $\varepsilon$ 领域：
$N_{\varepsilon}(L_i) = \{L_j\in{D}|dist(L_i,L_j)\le{\varepsilon}\}$
定义2：当 $|N_{\varepsilon}(L_i)|\ge{MinLns}$ 时，线段 $L_i\in{D}$ 被称为核心线段。
定义3：当 $L_i\in{N_{\varepsilon}(L_j)}$ 且 $|N_{\varepsilon}(L_j)|\ge{MinLns}$ 时，线段 $L_i\in{D}$ 直接密度可达线段 $L_j\in{D}$ 。
定义4：当存在一组线段 $L_j,L_{j-1},\cdots,L_{i+1},L_i\in{D}$ ,其中 $L_k$ 是直接密度可达 $L_{k+1}$ ，则线段 $L_i\in{D}$ 密度可达线段 $L_j\in{D}$ 。
定义5：当存在一个线段 $L_k\in{D}$ 使得线段 $L_i$ 和线段 $L_j$ 都密度可达 $L_k$ ，则线段 $L_i\in{D}$ 密度连接线段 $L_j\in{D}$ 。
定义6：当一个非空子集 $C\subseteq{D}$ 满足以下两个条件：

连接性： $\forall{L_i,L_j}\in{C}$ ， $L_i$ 密度连接 $L_j$ ；
最大化性： $\forall{L_i,L_j}\in{D}$ ，如果 $L_i\in{C}$ 且 $L_j$ 密度可达 $L_i$ ，那么 $L_j\in{C}$ 。

则 $C$ 被称作密度连接集。
密度可达性是直接密度可达性的传递闭环，而这种关系是不对称的。只有核心线段是相互密度可达的。然而，密度连接性是一种对称的关系。
在这里插入图片描述
考虑上图。令 $M i n L n s = 3$ 。粗线段表示核心线段。不规则椭圆表示 $\varepsilon$ 领域。基于上述定义：

$L_1,L_2,L_3,L_4,$ 和 $L_5$ 都是粗线段，即是核心线段；
$L_2$ （或 $L_3$ ）是直接密度可达 $L_1$ ，因为二者都在 $L_1$ 的椭圆内；
$L_6$ 是密度可达 $L_1$ ，但 $L_1$ 并不是密度可达 $L_6$ 。因为 $L_3$ 直接密度达于 $L_1$ ，而 $L_6$ 直接密度可达于 $L_3$ ，因此 $L_6$ 密度可达于 $L_1$ ，但由于 $L_6$ 不是核心线段，因此这种密度可达关系不具有对称性。
$L_1,L_4$ 和 $L_5$ 都是密度连接的。

2、聚类算法

这里介绍基于密度的线段聚类算法。给定一组线段集合 $D$ ，算法求解一组聚类 $O$ ，它要求指定两个参数 $\varepsilon$ 和 $M i n L n s$ 。这里一个聚类是指一个密度连接集。该算法与DBSCAN有很多相似的特征。
然而不像DBSCAN，并非所有的密度连接集都是一个线段聚类。需要考虑被提取线段的轨迹的数量，该数量值明显小于线段的数量。比如极端情况，所有的线段都是从一个轨迹中提取出来的。这样的聚类肯定是不合理的，因为它并不能解释足够数量轨迹的行为。这里，就需要校验轨迹的基数。
一个聚类 $C_i$ 中的分段轨迹集被表示为 $PTR(C_i)=\{TR(L_j)|\forall{L_j\in{C_i}}\}$ 。这里， $TR(L_j)$ 表示 $L_j$ 被提取所在的轨迹。那么 $PTR(C_i)|$ 被称作聚类 $C_i$ 的轨迹基数。
下图展示了线段聚类的算法流程。
在这里插入图片描述
一开始，假设所有的线段都没有被分类。随着算法计算，最终它们都将被分类成一个聚类或者噪声。这个算法包括三个步骤：

计算出每一个未被分类的线段 $L$ 的 $\varepsilon$ 领域 $N_{\varepsilon}(L)$ （1-12行）。如果 $L$ 被确定为一个核心线段（7-10行），则执行第二步去扩大一个聚类（9行）。这个聚类当前只包含 $N_{\varepsilon}(L)$ 。
计算一个核心线段的密度连接集（17-18行）。函数 $E x p a n d C l u s t e r ()$ 计算了直接密度可达的线段（19-21行）并添加到当前的聚类中（22-24行）。如果一个新添加的线段是未被分类的，那么它将被添加到队列 $Q$ 中进一步处理因为它可能会是一个核心线段（25-26行）；否则，不会添加到队列 $Q$ 中。
检查每一个聚类的轨迹基数（13-16行）。如果它的轨迹基数小于阈值，则从关联的聚类中剔除出。

该算法可以很容易地进行扩展，以支持具有权重的轨迹。这个扩展在许多应用中都非常有用。例如，一个更强的飓风自然会有更高的权重。为了实现这一点，我们需要修改确定一个 $\varepsilon$ 邻域的基数(即 $|N_{\varepsilon}(L)|$ )的方法。不是简单地计算线段的数量，而是通过综合计算线段的权重来计算加权计数。

3、一个聚类的代表性轨迹

一个聚类的代表性轨迹可以表达这个聚类中轨迹分段的整体行为。可以看作是一个线段聚类的数据模型。下图说明了如何生成一个代表性轨迹。
在这里插入图片描述
一个代表性轨迹是一组点的队列 $RTR_i=p_1p_2p_3\cdots{p_j}\cdots{p_{len_i}}(1\le{i}\le{num_{clus}})$ 。通过一种扫描线的方法可以确定这些点。

用一条垂线沿着线段聚类主轴方向进行扫描，可以计算出与这条扫描线（即垂线）相交的线段的数量。
只有当扫描线经过一个线段的起点或终点时，这个数量才会被考虑计算。
如果这个数字大于或等于 $M i n L n s$ 时，则计算聚类中的线段与扫描线的交点相对于主轴的平均值；否则，不考虑这些点（例如，第5和第6时的扫描线的位置情况就不考虑）。
此外，如果一个上一个点的位置太近（例如，第3时的位置），将忽略该点以平滑代表性轨迹。
为了计算出一个线段聚类的主轴，下面定义了平均方向向量：
定义：假设一组向量 $V=\{\vec{v_1},\vec{v_2},\vec{v_3},\cdots,\vec{v_n}\}$ 。那么这个向量集合的平均方向向量为：

其中， $∣ V ∣$ 是 $V$ 的基数，即集合的变量总数量。
有了平均方向向量，就要计算相对于它的交点的平均坐标。为了便于计算，旋转坐标轴以使 $X$ 轴平行于平均方向向量。旋转矩阵计算可以使用如下公式：

其中，角度 $\phi$ 可以通过计算平均方向向量与单位向量 $\hat{x}$ 的内积得到。

在计算得出 $X^{'}Y^{'}$ 坐标系下的平均值后，再转换回 $X Y$ 坐标系下的值。

上图描述了计算代表性轨迹的方法：
首先，计算平均方向向量和暂时旋转坐标轴（1-2行）。
然后，根据旋转坐标系下的坐标对起点和终点排序（3-4行）。
最后，在按照排序顺序扫描起点和终点时，计算出线段的数量，并计算出扫描线与这些线段的交点的平均值（5-12行）。

4、关于参数 $\epsilon$ 和 $M i n L n s$ 选取的启发式方法

在聚类过程中，有两个重要参数会影响到聚类结果，距离阈值 $\epsilon$ 和每个簇中的线段数量阈值 $M i n L n s$ 。
首先讨论参数 $\epsilon$ 的选取方法，这里采用熵理论解决这个问题。在信息理论中，熵指的是一个有确定概率分布的事件的不确定性。如果所有输出都一样，那么熵最大。启发式方法可以基于下面这样的观察来讨论。在最差的聚类结果中， $|N_\epsilon{(L)}|$ 趋于统一。也就是说，当 $\epsilon$ 很小时，那么所有线段的 $|N_\epsilon{(L)}|$ 将等于1；当 $\epsilon$ 很大时，那么所有线段的 $|N_\epsilon{(L)}|$ 等于 $num_{ln}$ （线段总数量）。这样，熵就是最大值。相对的，在一个好的聚类中，熵应该更小。
用下面公司来表达熵，依据公式确定参数 $\epsilon$ 使得 $H (X)$ 最小。最优解可以通过一种模拟退火算法得到 $H(X)=\sum_{i=1}^np(x_i)log_2{1\over{p(x_i)}}=-\sum_{i=1}^np(x_i)log_2{p(x_i)}$ ，其中 $p(x_i)={|N_\epsilon{(x_i)}|\over{\sum_{j=1}^n|N_\epsilon(x_j)|}}$ ， $n=num_{ln}$
接下来，讨论参数 $M i n L n s$ 的选取方法。当确定了最优 $\epsilon$ 后，计算每个线段的 $|N_\epsilon{(L)}|$ ，并求解平均值 $avg_{|N_\epsilon(L)|}$ 。这样选取 $avg_{|N_\epsilon(L)|} + 1\backsim3$ ，这样做是因为 $M i n L n s$ 要略大于 $avg_{|N_\epsilon(L)|}$ 以发现更有意义的聚类簇。

NieBP

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
GPS轨迹聚类算法TRACLUS介绍（四）

线段聚类LINE SEGMENT CLUSTERING这篇博客将说明TRACLUS算法的归组聚类阶段。首先，先讨论线段的密度属性；其次，介绍基于密度的聚类算法DBSCAN；然后，介绍计算线段聚类中代表性轨迹的方法；最后，介绍一中基于启发式的算法确定基于密度聚类算法的相关参数。1、线段密度1.1、距离函数回顾距离函数是三种距离的加权和。首先，垂直距离主要测量从不同轨迹中提取的线段之间的位置差。其次，平行距离主要测量从同一轨迹中提取的线段之间的位置差。在一个轨迹中，两个相邻的线段之间的平行距离始终为零。
复制链接

扫一扫