时空数据挖掘九

Towards Factorized SVM with Gaussian Kernels over Normalized Data

将机器学习(ML)技术集成到数据库系统(DB)中是一个新兴的趋势。考虑到几乎所有的ML工具包都假设ML算法的输入是一个单表,即使许多真实世界的数据集由于在DB中的规范化而存储为多个表。因此,数据科学家必须在学习机器学习模型之前执行连接操作。这种策略称为连接后学习(learning after join),通过规范化来避免冗余。在机器学习领域,支持向量机(SVM)是最标准的分类工具之一。本文主要研究归一化数据上的高斯核分解SVM。本文通过分解高斯核函数计算,提出了两种主要的SVM优化方法的分解学习方法,即梯度下降(GD)和序列最小优化(SMO)。然后,将归一化后的数据转化为矩阵,通过线性代数运算提高SVM的学习效率。在9个真实的归一化数据集上进行了广泛的实验,验证了所提出方法的有效性和可扩展性。 

Effective and Efficient Reuse of Past Travel Behavior for Route Recommendation 

随着移动对象跟踪数据的可用性越来越高,使用这些数据进行路线搜索和推荐变得越来越重要。本文提出一种新的并行拆分合并方法来实现按位置进行路线搜索(RSL-Psc)。给定一组路线,一组要访问的地点O和一个阈值θ,我们检索由(i)相似度不小于θ且(ii)包含最小数量的子路线组合组成的路线。由此产生的功能面向广泛的应用,包括路线规划和推荐、拼车和基于位置的服务

为了在海量路由数据上实现高效和有效的RSL-Psc计算,本文开发了新的搜索空间修剪技术,并使现代处理器的并行处理能力得以利用。具体地,我们开发了两种并行算法,完全拆分并行搜索(FSPS)和分组拆分并行搜索(GSPS)。 

在每个子任务中,我们使用网络扩展并利用空间相似性界限进行修剪。该算法将候选航路分解为子航路,并将子航路组合起来构造新航路。子任务是独立的,可以并行执行。真实数据上的大量实验结果表明,RSL-Psc问题能够产生高质量的结果,两种算法具有较高的效率和可扩展性。

 Fully-Split Parallel Search

在完全分割并行搜索(FSPS)中,我们首先使用网络扩展[3]从每个查询位置o∈o探索空间网络,并检索空间上接近o的候选路径。我们定义距离下界和相似度上界来修剪搜索空间。

Group-Split Parallel Search

为了进一步提高RSL-Psc处理的效率,我们提出了采用分治策略的分组并行搜索(GSPS)算法。 

 Geo-ALM: POI Recommendation by Fusing Geographical Information and Adversarial Learning Mechanism

从签到数据中学习用户的兴趣偏好对兴趣点推荐具有重要意义。然而,用户通常已经访问了一些poi,而大多数poi是未访问的(即负样本)。为了利用这些“无行为”的poi,典型的方法是成对排序,它为用户和poi构建排序对。虽然这种方法总体上是有效的,但排名对中的负样本是随机获得的,可能无法在模型训练中利用“关键”负样本。另一方面,已有研究也利用地理特征来提高推荐质量。然而,以往的工作没有全面地利用地理信息,这也可能影响性能。为缓解这些问题,本文提出了一种基于地理信息的对抗学习模型(Geo-ALM),可以看作是地理特征和生成式对抗网络的融合。其核心思想是通过利用两种粒度的地理特征(即区域特征和兴趣点特征)交互式地学习鉴别器和生成器。实验结果表明,GeoALM具有与其他几种主流算法相当的性能。

Multi-task Representation Learning for Travel Time Estimation 

在智能交通系统中,一个重要的任务是根据给定的出发地、目的地以及出发时间估计一次潜在出行的持续时间。大多数现有的旅行时间估计方法都假设出行路线是给定的,这在实际应用中并不适用,因为路线可以根据交通状况、用户偏好等动态改变。由于从起点到终点的路径推断非常耗时且容易出错,因此需要进行起点到终点的旅行时间估计,即在没有在线路径信息的情况下预测旅行时间。该问题具有挑战性的主要原因是其可用信息量有限和复杂的时空依赖关系。本文提出一种用于到达时间估计的多任务表示学习模型(MURAT)。该模型产生了有意义的表示,保留了现实世界中的各种出行属性,同时利用了底层道路网络和时空先验知识。此外,我们提出了一种多任务学习框架,在训练阶段利用历史行程的路径信息来提高性能。在两个大规模真实数据集上的实验结果表明,所提方法比现有方法取得了明显的性能提升。 

 

 

 4.3 Multi-task Representation Learning

从路径中提取各种摘要,如行驶距离、行驶中的链接数量、红绿灯数量和转弯数量,并将其作为辅助任务进行预测。具体而言,提出了一种多任务学习框架,联合学习主要任务(预测行程时间)和各种辅助任务(预测不同的路径摘要)。我们使用一个硬参数共享框架,其中不同的任务共享模型的大部分,除了为每个任务有一个专用的输出层。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值