天猫大数据总结1

在三月份的时候得知了天猫的比赛,因为是第一届,因此自己知道得也比较晚,组队的时候很多小伙伴都已经组队了,因此也就一个人组队了。辛辛苦苦熬到了第二季的最后

一个月,学到了很多,也明白了很多自己在算法方面的不足。看最近前十名的同学已经揭晓了,很佩服他们,也从他们的采访中中了解到他们的算法,因此也对自己不熟悉的部分进行学习,对自己所做过的工作进行总结


首先再回顾一下比赛的题目:
在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型:
字 段字段说明提取说明
user_id用户标记抽样&字段加密
Time行为时间精度到天级别&隐藏年份
action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为
(点击:0 购买:1 收藏:2 购物车:3)
brand_id品牌数字ID抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

第二赛季和第一赛季的格式都是一样的,只是在数据量上更大了一些:

Season 2赛季数据

1)  数据获取方式:
     参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。登陆天池集群方法,请留
     意后续的指导文档和邮件通知。
2)  数据说明:
     提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度4个月的行为记录。
     提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_total_1中,字段分别为:user_id,brand_id, type, visit_datetime。如图所示

     

     用户4种行为类型(Type)对应代码分别为:
     点击:0;购买:1;收藏:2;购物车:3
3)  提交评分方式:
     参赛者完成用户品牌偏好预测后,需要将结果放入指定格式的数据表(非分区表)中,要求结果表名为:t_tmall_add_user_brand_predict_dh,
     包含user_id和brand两列。其中brand字段为预测的偏好品牌ID,多个品牌之间用逗号(",")分隔。
     例如:

     

主要操作在阿里自己的天池上,上面搭载ODPS平台,可以像sql语言一样操作数据表,同时有MAP-Reduce可以完成一些分布式运算,和hadoop有类似之处,还有自带的一些xlab工具,已经封装了一个功能,比如对表数据进行LR和随机森林的运算都可以直接通过相应的按钮和配置参数完成


其实对我而言,参加比赛对于结果还是不太在意的,但是阿里的赛制很有特色,他不是扔出来一个题目就结束了,比赛持续了四个月,在这四个月里,虽然也有很多别的重要的事情,但是由于淘汰赛制,一直督促自己学习,虽然不是这个相关专业,但是学会了推荐系统的一些基础算法

为了写出更简洁的代码,更专注于算法而非语言本身,学习了python

为了了解更多的算法,看完了好几本推荐算法相关的书籍,虽然名次并不高,但是我想我已经赢了!

之后就开始总结我学到的一些内容,和大家分享


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值