天池初体验——新人实战赛之[离线赛]

 
 
 
注意,本篇博文代码存在一些问题,请查看修改版的博文,地址为:


  • 写在开头:本篇博文的适用对象为对天池比赛完全不知如何下手的小伙伴。本文将从头开始记录如何最简单地整理数据、提取特征,再建立模型或者使用人工规则进行预测,然后选出数据并提交,最后得到结果。所以,本文并不会更多得关注特征的选择提取以及模型该如何建立。最后,本人所使用的工具为Spark,非常地方便,它包含了spark-sql工具,数据库默认使用的是derby,同时,Spark含有mllib库,能非常方便地进行机器学习相关工作,可以说,线下比赛能够完全用Spark完成。

赛题说明


官方说明如下,这里只进行简单解释。

https://tianchi.shuju.aliyun.com/getStart/introduction.htm?spm=5176.100068.5678.1.VEirgR&raceId=231522

可以看到,有两个表。第一个表UI是用户这个月内在商品全集上的行为数据,第二个表P是商品子集信息。而赛题说了,评分数据是12月19号用户对商品子集里商品购买信息的预测。所以,这里提供几个简单规则:

  • 可以根据P表里的商品信息,对UI表进行过滤,只留下含有P表商品的交互记录。这条规则背后蕴含的原理是,因为用户对不同类别商品或者服务,购买的策略不同,所以我们只去考虑P表内含有的那些类别的数据去进行学习。
  • 将实际情况简化,这里只通过预测日前两天的用户商品交互情况来预测。即,为了预测19号的购买情况,我们就用17、18号的用户交互情况来预测。为了进行预测,我们就需要学习一个模型出来。所以,我们可以去根据16、17号的用户交互数据,以及18号用户的购买数据来学习出这个模型,本文将简单地选择决策树模型。
  • 因为UI表格里只含有浏览、收藏、加购物车以及购买这四个数据,对于构建一棵决策树来说肯定不够,所以我们要想办法扩充特征,例如对用户进行打分(例如对某个商品浏览一次加2分,收藏加3分等等)、算一下浏览占总交互次数的比例,等等等。这里只是我随意举的特征,具体的还需要自己打开脑洞想一想。
  • 有一个重要问题需要注意,对于我们提取出来的训练集数据里,在18号不会购买的项的数据量比18号购买的项的数据量多得多,也就是正负样本比例相差得太大!这对于模型学习是灾难性的,学习出的模型完全不能用。所以,我们需要选出训练集里所有在18号购买了的,再选出同等数量或者相差不多的数量的负样本作为新的训练集,利用新训练集去学习决策树模型,这样才能起效果。

数据准备


如果涉及到Spark集群,那么操作文件都默认在HDFS上。首先将两个源数据

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
大学生参加学科竞有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞是提高专业知识和技能水平的有效途径。通过参与竞,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域有更深刻的理解。在竞过程中,学生通常需要解决实际问题,这锻炼了他们独立思考和解决问题的能力。 其次,学科竞培养了学生的团队合作精神。许多竞项目需要团队协作来完成,这促使学生学会有效地与他人合作、协调分工。在团队合作中,学生们能够学到如何有效沟通、共同制定目标和分工合作,这对于日后进入职场具有重要意义。 此外,学科竞是提高学生综合能力的一种途径。竞项目通常会涉及到理论知识、实际操作和创新思维等多个方面,要求参者具备全面的素质。在竞过程中,学生不仅需要展现自己的专业知识,还需要具备创新意识和解决问题的能力。这种全面的综合能力培养对于未来从事各类职业都具有积极作用。 此外,学科竞可以为学生提供展示自我、树立信心的机会。通过比的舞台,学生有机会展现自己在专业领域的优势,得到他人的认可和赞誉。这对于培养学生的自信心和自我价值感非常重要,有助于他们更加积极主动地投入学习和未来的职业生涯。 最后,学科竞对于个人职业发展具有积极的助推作用。在竞中脱颖而出的学生通常能够引起企业、研究机构等用人单位的关注。获得竞奖项不仅可以作为个人履历的亮点,还可以为进入理想的工作岗位提供有力的支持。
天池新人 O2O 优惠券是一项在线比,旨在鼓励参者运用数据分析和机器学习技术来解决O2O优惠券发放的问题。O2O即“线上到线下”,是指将线上平台的服务与线下实体商店的购物场景结合起来的商业模式。而优惠券则是一种促销手段,可以为消费者提供折扣、赠品或者其他优惠活动。 这个比的主要任务是根据用户的线上活动行为、线下消费行为,以及优惠券的相关信息,预测用户是否会在规定的时间内使用优惠券来购买指定的商品。通过分析大量的历史数据,参者需要构建准确的预测模型,同时考虑到用户的行为特征和优惠券的属性,从而提高优惠券的使用效率和商家的销售转化率。 此项比的意义在于挖掘并优化O2O优惠券的发放策略,提供更精准的目标营销。通过合理分析用户行为和优惠券的匹配关系,商家可以有针对性地向潜在消费者发放优惠券,从而提高用户的购买转化率和忠诚度。同时,这也可以减少优惠券的浪费,降低商家的营销成本。 通过参与天池新人 O2O 优惠券竞,参者将面临来自各方面的挑战和难题。不仅需要运用数据分析和机器学习算法进行预测,还需要对于O2O领域的相关知识有一定的了解。此外,参者还可以通过与其他选手的交流和分享经验,提高自己的解题能力以及理解O2O优惠券的商业价值。 总的来说,天池新人 O2O 优惠券是一项挑战性的比,旨在促进数据分析和机器学习在O2O领域的应用,为商家提供更智能化、精确化的优惠券发放策略,同时为消费者提供更个性化、经济实惠的购物体验。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值