Feature-driven Time Series Clustering(EDBT)

Feature-driven Time Series Clustering(EDBT)

时间序列聚类问题在现实生活中有很多应用,特别是在数据科学和数据分析管道中。现有的时间序列聚类算法对于特征丰富的现实世界时间序列是无效的,因为它们只是基于原始数据计算时间序列的相似度,或者使用一个固定的特征集。在本文中,我们提出了一个基于特征的半监督聚类框架来解决上述问题的变长和异质时间序列。具体来说,我们依赖于时间序列的图编码,它是通过考虑大量重要的特征提取而获得的。然后,我们使用社区检测和利用共现矩阵,以便将所有最好的聚类结果组合在一起。我们广泛的实验评估显示了我们的方法的可伸缩性和鲁棒性,以及它在现实医疗保健数据和UCR基准数据上相对于当前最先进的聚类算法的优越性

有趣之处:把时间序列序列聚类后转化成图,利用社区检测方法实现图检测

1. 特征抽取:

这个步骤要考虑特征之间的相关性,即特征选择。我们仅通过使用时间序列的类标签对应的特征值来计算提取的特征的相关性。采用了一种称为主特征分析(PFA)的技术。PFA是主成分分析(PCA)的变体。关键的区别是PFA保留了特征的原始值,从而保留了特征之间的距离。

这个技术说的有些模糊,实现细节没有说清楚

2.Graph Rendering and Community Detection

目的:将原始时间序列转化成图结构

假设我们有一个特征𝐹𝑖(由PFA在上一步中选择)和一组𝑛时间序列{𝑇𝑆1,..,𝑇𝑆𝑛}。设𝑇𝑆𝑖是图𝐺的顶点集𝑉中的一个节点𝑣𝑖。E是图𝐺的边,其中每条边𝑒𝑖连接𝐺中的两个节点,代表两个不同的时间序列。每条边𝑒𝑖被赋予一个权值𝑤(𝑒𝑖),代表这条边的连通节点之间的距离,

图创建存在问题:不同时间序列作为顶点,那么他们之间不一定存在边的连接关系

3. Creation of the Co-Occurrence Matrix

潜在的直觉是,如果两个时间序列是相似的,它们的大多数识别特征将是相似的。我们使用一个共现矩阵[14]来实现这一点。这个矩阵记录了每一对时间序列在同一个群落中被分组的次数。从直观上看,它们被放置在同一个社区的次数越多,时间序列就越相似。

权重将被传播到相似性矩阵中,现在相似性矩阵将从用户的角度反映每个特征的重要性。毫不奇怪,我们现在不是简单地计算时间序列𝑇𝑆𝑖和𝑇𝑆𝑗在同一个社区中同时出现的次数,而是将它们的权重相加,然后除以所有时间序列的权重之和,如下所示。

4. Clustering the Co-Occurrence Matrix

上一步得到的共现矩阵允许我们量化两个时间序列之间的相似性。为了为创建时间序列簇做准备,我们还需要一个中间步骤,即计算共现矩阵的行之间的距离。我们使用标准欧氏距离来进行行比较

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值