InsideSherpa虚拟实习-数据分析

Module 1:数据质量评估

Sprocket Central Pty Ltd是一家中等规模的自行车和自行车配件销售公司,该公司拥有与客户相关的大型数据集,但是他们的团队不确定如何有效地对其进行分析以帮助优化其营销策略。客户提供的数据集包括:

  • Customer Demographic 客户属性表
  • Customer Addresses 客户地址表
  • Transactions data in the past 3 months 过去三个月的交易表

技术栈:Excel / Python

Customer Demographic

1、DOB出现了1843-12-21的记录,不符合现实,考虑是由于数据录入错误导致的,将其修改为1943-12-21
2、具有缺失值的列:last_name, job_title, job_industry_category, default, tenure,由于这些列对客户价值分群的影响程度未知,因此暂且忽视缺失值
3、gender列出现意义相同的值,为了方便后续分析,建议将F和Femal修改为Female,将M修改为Male

Customer Addresses

1、与客户属性表相比,缺失一条记录
2、由于客户属性表的ID范围是1~4000,而客户地址表出现了三条ID大于4000的记录,检查是否为录入错误,结合地址信息修正客户ID,并联系客户补充缺失的地址信息
3、state列出现意义相同的值,根据邮编可知,VIC和Victoria同属于一个地区,NSW和New South Wales同属于一个地区,因此将Victoria更新为VIC,将New South Wales修改为NSW

Transactions

1、costomer_id列出现9条ID范围之外的记录,由于数据量较大,因此考虑删除异常记录
2、根据列名,product_first_sold_date应该为时间类型
3、product_id为0的交易订单可以单独成组分析或选择删除,这些记录的brand,poduct_line,product_class,product_size,standard_cost,product_first_sold_date都为空
4、online_order缺失值处理为Unknown

Module 2:数据洞察

Sprocket Central Pty Ltd已向我们提供了1000个潜在客户的新列表,其中包括他们的人口统计和属性。但是这些客户在组织中没有交易记录,现要求根据客户的特征和属性定位高价值客户,并以PowerPoint形式展示。

技术栈:Excel、Python、PowerPoint

import pandas as pd
from sklearn.preprocessing import LabelEncoder
from datetime import datetime
from matplotlib import pyplot as plt

old_customer=pd.read_excel('D:/download/data.xlsx',sheet_name='OldCustomer')
transaction=data_old=pd.read_excel('D:/download/data.xlsx',sheet_name='Transactions (2)')
'''
如果使用python离散化分类型变量
col=['job_title']
model_le = LabelEncoder()  # 建立模型对象
set= model_le.fit_transform(old_customer[col])  # 直接转换
newset=pd.DataFrame(set,columns=col)
old_customer[col]=newset[col]
'''

#相关性分析
print('{:-^60}'.format('Correlation Analyze:'))
short_name = ['id', 'gender', 'p3y', 'age', 'jic', 'ws',
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值