1. 对于Hausdorff距离的理解
Hausdorff距离:描述两组点集之间相似程度的一种度量。
假设两组集合A={a1,a2,.....ap},B={b1,b2.....bp},则这两个点集之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(A,B)) (1)
其中,h(A,B)=max(a∈A) min(b∈B) ||a-b|| (2),
h(B,A)=max(b∈B) min(a∈A) ||b-a|| (3),
||·|| 是A和B点集间的距离范式。
(1)式称为双向Hausdorff距离,它度量了两个点集间的最大不匹配程度。
(2)、(3)式中的h(A,B) 、h(B,A)分别称为从A集合到B集合 和从集合B到集合A 的单向Hausdorff距离。
即h(A,B)实际上首先对点集A中的每个点ai到距离此点ai最近的B集合中点bj之间的距离‖ai-bj‖进行排序,然后取该距离中的最大值作为h(A,B)的值。
图例表示:
2.对于LCSS距离的理解
LCSS 最长公共子序列
欧氏距离和动态时间规划对轨迹的个别点差异性明显。
如果两个时间序列在大多数时间段具有相似的形态,仅仅在很短时间内具有一定的差异,则欧氏距离和DTW无法准确衡量这两个时间序列的相似度。
而LCSS能处理这种问题。
原理:
假设有两个长度分别为n和m的时间序列数据A和B ,那么最长公共子序列的长度为:
其中,γ为成员相似阈值,t=1,2,...n;i=1,2,...m。基于上述公式,最长公共子序列的相似度公式为:
LCSS算法可以计算两个子序列之间的最长公共子序列。
结合具体实例理解:
3.改进LCSS算法
见https://blog.csdn.net/weixin_30745641/article/details/95504238
改进后LCSS算法
优点:结合时间、地理因素,提高相似度计算的准确性
缺点:需要抽取时间序列,构造用户轨迹的频繁序列,然后才能用改进的LCSS相似度算法计算用户轨迹的相似度,
因此算法模型过程比较复杂。
参考:
https://www.cnblogs.com/yhlx125/p/5478147.html
https://www.it610.com/article/1293141069264920576.htm
https://blog.csdn.net/weixin_30745641/article/details/95504238