基于关联规则的气象服务智能推荐

基于关联规则的气象服务智能推荐

赵文芳, 刘亚楠, 余东昌

北京市气象信息中心,北京 100089

摘要:针对气象公众服务存在的专业化程度不高、针对性不强等问题,提出了一种使用关联规则向用户推荐气象服务产品的方法。将用户访问的Web日志数据经过清洗、转换后进行关联规则挖掘,同时设计了一种基于气象产品浏览总次数计算产品相似度的算法,对挖掘出来的关联规则进行筛选。共进行了5组实验,并对用户浏览产品的行为进行了简单预测。实验结果表明,挖掘出的规则在降水天气和雾霾天气中的正确率比较高,结合气象服务产品的相似度能过滤掉10%的无效规则,从而提升规则的正确性。

关键词:智能推荐;关联规则;Web日志;气象公众服务;并行计算;相似度;协同过滤

doi:10.11959/j.issn.2096-0271.2018020

640?wx_fmt=jpeg

论文引用格式:赵文芳, 刘亚楠, 余东昌. 基于关联规则的气象服务智能推荐[J]. 大数据, 2018, 4(2): 72-85.

ZHAO W F, LIU Y N, YU D C. Intelligent recommendation of meteorological service based on association rules[J]. Big Data Research, 2018, 4(2): 72-85.

640?wx_fmt=jpeg

引言

气象与国民经济各行各业关系密切,气象部门在千方百计提高预报预测准确率的同时,一直致力于推动气象与经济社会的融合,更好地发挥气象在经济社会中的作用。为了顺应信息化时代发展趋势,中国气象局提出了“互联网+气象”行动计划,促进气象与经济社会融合发展 。“互联网+气象”行动计划对气象服务提出了明确要求,不再局限于单纯地向社会提供气象预报信息,而是为天气高影响行业提供有针对性的专业气象服务,对公众提供精细化、个性化的气象服务。目前,面向公众和行业的气象服务由于缺乏对用户行为数据的分析,难以把握其活动特征,难以主动提供个性化气象服务产品,存在专业化程度不高、针对性不强等问题。因此,如何为用户推荐合适的气象服务产品成为了需解决的重要问题。

推荐系统是帮助人们快速发现有用信息的重要工具,它不仅给用户推荐符合个人兴趣的内容,还为用户节省了在海量数据中查找信息的时间[1]。推荐系统中常用的推荐技术主要有基于内容的推荐、协同过滤推荐及关联规则推荐[2-7]等。其中,基于内容的推荐算法适用于推荐新商品,但不适用于新用户推荐;基于知识的推荐算法适用于用户的行为数据较少,同时又有明确需求的场景;协同过滤算法依据用户评分为用户推荐商品,同时也存在冷启动问题。

目前,现有的气象服务模式主要以手机应用程序、微信公众号、微信小程序和网站为载体,向用户提供气象服务产品的浏览和查询,没有评分功能,无法获取用户评分数据,只能大量记录用户行为的Web日志数据。本文提出了一个根据用户浏览记录向用户推荐气象服务产品的方法,具体贡献如下。

● 提出了一种对气象产品进行挖掘的方法,利 用FP-Growth算法进行关联规则挖掘,然后对误导性强关联规则进行排查和过滤,建立暴雨、高温、大风、雾霾等高影响天气下的气象服务推荐模型。

● 提出了一种基于页面浏览总量的气象产品相似度算法,实现用户对每个产品浏览总量的线性变换处理,并映射到区间[1,5],作为用户对每个产品的评分,最后利用修正后的余弦相似度计算产品之间的相似度。

● 基于Spark框架设计了两种数据预处理并行算法,将原始数据抽象 为弹性分布式数据集(resilient distributed datasets,RDD)模型,利用map 、groupByKey等函数进行数据的大量迭代计算、归一化处理,快速实现数据清洗、转换。

● 提出了利 用Impala实现原始数据冗余的处理方法。

● 通过 在Cloudera大数据平台的Spark框架下进行实验,说明本方法的实用性和高效性。

2  相关工作

对于气象服务产品的推荐,目前主要以手机移动软件为载体实现两个方面的研究应用:基于用户地理位置的气象服务;根据用户的订阅计划及时推送相应气象产品。 “气象雷达—天气预报、温度和雨量图”手机应用软件提供了便捷的地点搜索,为用户提供最近距离气象站的精准天气数据,并为用户提供3种订阅计划 。“中国气象”手机应用软件能为用户提供最近距离的气象站实况监测信息和站点搜索功能 。“智慧气象”手机应用软件为用户提供“一键式专业气象信息订制”功能,让用户一键轻松获取所需信息 。“彩云天气” “墨迹天气” “北京气象”等手机应用软件也提供了类似的功能。

针对关联规则个性化推荐的研究主要包括:参考文献[8]对关联规则算法进行改进,并提出了一种基于划分的关联规则并行分层挖掘算法;参考文献[9]提出了Hadoop 平台下的并行Web日志挖掘算法;参考文献[10]首先利用模糊聚类进行数据预处理,在此基础上再进行频繁项集的挖掘;参考文献[11]提出了基于MapReduce的并行关联规则增量更新算法;参考文献[12]提出了一种基于关联规则挖掘的跨网络知识关联及协同应用;参考文献[13]提出了一种结合关联规则的协同过滤推荐算法;参考文献[14]提出了基于业务路径和频度矩阵的关联规则挖掘算法;参考文献[15]采用多重约束进行时序关联规则挖掘,分析得到了与实际情况高度吻合的气候指数与陆地区域异常降水事件间的关系;参考文献[16]采用了改 进的FP-Growth算法挖掘出各种气象因子之间可能存在的关联,从而发现气象特点,对近期天气气象做出预报。

以上研究表明,通过挖掘用户行为提取兴趣特征,在兴趣特征基础上再为用户提供个性化推荐服务的方法广泛用于电子商务中。但是,使用包含用户轨迹的Web日志数据分析研究物品之间强关联规则,再进行推荐的方法相对较少。此外,气象服务推荐也局限于基于地理位置的精细化服务,缺少对气象服务产品之间相关性的挖掘和用户对不同产品的偏好研究,无法对用户进行更精准、个性化的推荐。因此,本文提出一种基于气象服务产品关联规则的推荐模型。

3  气象服务产品推荐模型

FP-Growth算法是韩家炜等人在2000年提出的关联分析算法,通过构造一个树结构来压缩数

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
全国大学生数据挖掘竞赛网站是一个致力于为高校师生提供 各类数据挖掘资源、资讯和竞赛活动开展的综合性网站,高校师生可通过网站获取 到所需的竞赛通知、教学资源、项目需求、培训课程等信息。另一方面,作为该网 站的技术支持方(TipDM公司)也希望能通过该网站及时知道访问者当前最关心什 么、关注什么,以便公司对新推出的产品和服务快速出作调整和响应。 用户进入网站主页查找资源一般是按不同类别栏目进入,再从细分栏目下寻找到目 标资源,但用户感兴趣的资源可能是跨类别,用户自行寻找则相对困难,此时需要 网站提供推荐功能,推荐用户可能感兴趣的页面,便于用户快速找到所关注的资源 ;同时访问网站的用户很多,但不同用户群体感兴趣的内容不一样,适合推荐的服 务也不一样,有的用户对数据挖掘领域不是太熟悉,相关的技术还不熟悉,此时就 需要提供相应的培训资源,有的用户是寻求企业级的数据挖掘服务,希望找到数据 挖掘在企业方面的应用,此时就需要提供相应的企业应用服务资源。对于网站而言 ,可结合用户访问网站的行为,挖掘出不同用户群体,推荐匹配的服务,提高用户 留存率。 如何利用用户的访问数据,挖掘出页面之间的联系,对用户进行推荐呢? TipDM公司目前希望在培训业务上得到推广,如何结合业务需要与用户的访问 行为特征,进行相应的推荐呢?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值