数据来源
阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
了解背景:
- Ali_Mum_Baby含有购买数据,包含超过买家购买信息,这些信息由共享信息的消费者提供,以便接收更好的推荐或搜索结果。
- Tianchi_mum_baby有婴儿信息数据,包含了淘宝或天猫消费者提供的孩子的生日和性别。
预测指标:
- 根据父母的购买行为来预测孩子的年龄。
- 或者根据孩子的信息(年龄,性别等)来预测用户会购买哪种商品。
预览数据:
购买数据
标签(Ali_Mum_Baby) | 定义 | 值 |
---|---|---|
user_id | 用户id | |
auction_id | 购买行为编号 | |
cat_id | 商品种类ID | |
cat1 | 商品属于哪个类别 | XX:XX;XX:XX;… |
property | 商品属性 | |
buy_mount | 购买数量 | |
day | 购买时间 | 年月日 ‘YYYYMMDD’ |
婴儿信息
标签(Ali_Baby) | 定义 | 值 |
---|---|---|
user_id | 用户id | |
birthday | 出生日期 | |
gender | 性别 | 0 男性;1 女性 |
数据预处理
import warnings
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import pandas_profiling
warnings.filterwarnings('ignore')
查看购买信息,婴儿信息:
bought=pd.read_csv(r'../baby shop/表1购买商品.csv')
baby&#