天猫大数据总结1

最新推荐文章于 2024-01-07 19:15:45 发布

candice廷

最新推荐文章于 2024-01-07 19:15:45 发布

阅读量3.5k

点赞数

分类专栏：推荐系统&机器学习文章标签：大数据天猫阿里巴巴 bigdata 集群

本文链接：https://blog.csdn.net/xietingcandice/article/details/38986671

版权

推荐系统&机器学习专栏收录该内容

33 篇文章 3 订阅

订阅专栏

在三月份的时候得知了天猫的比赛，因为是第一届，因此自己知道得也比较晚，组队的时候很多小伙伴都已经组队了，因此也就一个人组队了。辛辛苦苦熬到了第二季的最后

一个月，学到了很多，也明白了很多自己在算法方面的不足。看最近前十名的同学已经揭晓了，很佩服他们，也从他们的采访中中了解到他们的算法，因此也对自己不熟悉的部分进行学习，对自己所做过的工作进行总结

首先再回顾一下比赛的题目：
在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户4个月在天猫的行为日志，建立用户的品牌偏好，并预测他们在将来一个月内对品牌下商品的购买行为。

我们会开放如下数据类型：

字段	字段说明	提取说明
user_id	用户标记	抽样&字段加密
Time	行为时间	精度到天级别&隐藏年份
action_type	用户对品牌的行为类型	包括点击、购买、加入购物车、收藏4种行为 (点击：0 购买：1 收藏：2 购物车：3）
brand_id	品牌数字ID	抽样&字段加密

用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样，且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。

第二赛季和第一赛季的格式都是一样的，只是在数据量上更大了一些：

Season 2赛季数据

1)  数据获取方式：
     参赛者只能登陆阿里巴巴天池集群获取数据，且数据不能下载，所有数据分析，计算，提交评分都将在天池集群上完成。登陆天池集群方法，请留
     意后续的指导文档和邮件通知。
2)  数据说明：
     提供的数据量，涉及千万级天猫用户，万级天猫品牌，时间跨度4个月的行为记录。
     提供的训练数据在天池集群的表t_alibaba_bigdata_user_brand_total_1中，字段分别为：user_id，brand_id, type, visit_datetime。如图所示

     用户4种行为类型(Type)对应代码分别为：
     点击：0；购买：1；收藏：2；购物车：3
3)  提交评分方式：
     参赛者完成用户品牌偏好预测后，需要将结果放入指定格式的数据表（非分区表）中，要求结果表名为：t_tmall_add_user_brand_predict_dh，
     包含user_id和brand两列。其中brand字段为预测的偏好品牌ID，多个品牌之间用逗号(",")分隔。
     例如：