一、分析背景
Olist是巴西市场上最大的百货公司,来自巴西各地的小型企业可以通过Olist商店销售他们的产品,并使用Olist物流合作伙伴将其直接运送给客户。
数据链接:Brazilian E-Commerce Public Dataset by Olist | Kaggle
数据集介绍:该数据集由Olist 提供,包含2016年9月-2018年8月在巴西多个市场进行的10万个订单的信息。其功能允许从多个维度查看订单:从订单状态、价格、付款和运费表现到客户位置、产品属性以及最终由客户撰写的评论以及地理定位数据集,它将巴西邮政编码与纬度/经度坐标联系起来。 该数据集包含9个子集,每个数据集之间的联系如下图:
二、理解数据
序号 | 表名&含义 | 字段名 | 字段说明 | 数据类型 |
1 | olist_customers_dataset | customer_id | 客户对应ID | 主键 |
【客户信息表】 | customer_unique_id | 每个客户的唯一标识符 | 主键 | |
customer_zip_code_prefix | 客户邮编前5位数 | 数字 | ||
customer_city | 客户所在城市名 | 字符串 | ||
customer_state | 客户所在州名 | 字符串 | ||
2 | geolocation_zip_code_prefix | 客户邮编前5位数 | 数字 | |
olist_geolocation_dataset | geolocation_lat | 维度 | 数字 | |
【邮政编码信息表】 | geolocation_lng | 经度 | 数字 | |
geolocation_city | 城市名 | 字符串 | ||
geolocation_state | 州 | 字符串 | ||
3 | olist_order_items_dataset | order_id | 订单ID | 主键 |
【订单详情数据】 | order_item_id | 序号,用于标识同一订单中包含的商品数量 | 数字 | |
product_id | 产品ID | 主键 | ||
seller_id | 卖家ID | 主键 | ||
shipping_limit_date | 显示用于将订单移交给物流合作伙伴的 卖方装运限制日期 |
时间日期 | ||
price | 货物单价 | 数字 | ||
freight_value | 物品运费价值物品(如果订单包含多个物品, 则运费价值将在物品之间分配) |
数字 | ||
4 | olist_order_payments_dataset | order_id | 订单ID | 主键 |
【订单付款数据】 |