数据挖掘导论——可视化分析实验

最新推荐文章于 2024-08-05 15:49:48 发布

吃饭243

最新推荐文章于 2024-08-05 15:49:48 发布

阅读量1.2k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘 python 数据分析

本文链接：https://blog.csdn.net/weixin_50325452/article/details/127308586

版权

数据挖掘专栏收录该内容

1 篇文章 1 订阅

订阅专栏

文章目录

1)商店客流量数据可视化

a) 数据来源

商店数据来自天池口碑商家客流量预测比赛，这里只筛选了一部分数据。
https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.333.10.W
7qorD&raceId=231591

“shop_payNum_new.csv”的数据各个字段的含义
Field Sample Description
pay_num 1 客流量（每天使用支付宝在该店消费的人数）
shop_id 1 商家 id，与 shop_info 对应
time_stamp 2016/1/1 支付时间
cate_2_name fast food 商店的二级分类名称
b) 实验要求：
读取数据

import pandas as pd
import matplotlib.pyplot as plt

shop_payNum_new = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

（1）绘制所有便利店的 10 月的客流量折线图。

代码：

convenience_store = shop_payNum_new[shop_payNum_new['cate_2_name'] == 'convenience store']

Oct_payNum = convenience_store[convenience_store.index.month == 10]
shop_id = Oct_payNum['shop_id'].drop_duplicates(keep='first', inplace=False) 

for i in shop_id:
    tmp = Oct_payNum[Oct_payNum['shop_id'] == i]
    tmp.plot(y = 'pay_num', title = 'convenience store and shop_id = ' + str(i), kind='line')
    plt.xlabel('day')
    plt.show()

思路：

取出所有cate_2_name为convenience store的行。
因为读取数据时使用parse_dates将时间解析成datetime时间对象，index_col=0将第一列，即时间那一列作为索引，索引类型为DatetimeIndex，所以可以取出10月的所有行。
遍历所有的shop_id并绘图。

执行结果：
在这里插入图片描述

（2）绘制每类商家 10 月份的日平均客流量折线图。

代码：

cate_2_name=shop_payNum_new['cate_2_name'].drop_duplicates(keep='first', inplace=False)

for i in cate_2_name:
    tmp = shop_payNum_new[shop_payNum_new['cate_2_name'] == i]
    Oct_payNum = tmp[tmp.index.month == 10]
    day_payNum = Oct_payNum.groupby(Oct_payNum.index.day).mean()
    day_payNum.plot(y = 'pay_num', title=str(i)+ ' pay_num', kind='line')
    plt.xlabel('day')
    plt.show()

思路：

遍历所有cate_2_name，即所有商家的名字
取出商家10月份的数据，并按日期分组。
求均值后绘图。

执行结果：
在这里插入图片描述

（3）选择一个商家，统计每月的总客流量，绘制柱状图。

代码：

fast_food = shop_payNum_new[shop_payNum_new['cate_2_name'] == 'fast food']
shop = fast_food[fast_food['shop_id'] == 196]
month_payNum = shop.groupby(shop.index.month).sum()
month_payNum.plot(y = 'pay_num', title='fast food && shop id = 196', kind='bar')
plt.xlabel('month')
plt.show()

思路：

选择fast food并且shop id 为196的商家。
将数据按时月分组并求和。
绘图。

执行结果：
在这里插入图片描述

（4）选择一个商家，统计某个月中，周一到周日的每天平均客流量，并绘制柱状图。

代码：

Oct_payNum = shop[shop.index.month == 10]
week_payNum = Oct_payNum.groupby(Oct_payNum.index.strftime('%w')).mean()

week_payNum.plot(y = 'pay_num', title = 'fast food week pay_num', kind = 'bar')
plt.xlabel('week')
plt.show()

思路：

选择fast food并且shop id = 196。
取出10月份的数据，按每周的日期分组。
求每天的均值并绘图。

执行结果：
在这里插入图片描述

（5）选择一个商家，绘制客流量直方图。

代码：

shop.plot(y = 'pay_num', kind='hist', title= 'fast food && shop id = 196', alpha = 0.5)
plt.show()

思路：

选择fast food并且shop id= 196的商家。
绘制直方图。

执行结果：
在这里插入图片描述

（6）选择一个商家，绘制客流量密度图。

代码：

shop.plot(y = 'pay_num', title = 'fast food && shop id = 196', kind = 'kde')
plt.show()

思路：

选择fast food并且shop id= 196的商家。
绘制流量密度图。

执行结果：
在这里插入图片描述

（7）统计某个月各个类别商店总客流量占该月总客流量的比例，绘制饼图。

代码：

shop = shop_payNum_new[shop_payNum_new.index.month == 10]
shop_rate = shop.groupby(shop['cate_2_name']).sum() / shop['pay_num'].sum()
shop_rate['pay_num'].plot(kind='pie', autopct='%.2f')
plt.title("Oct")
plt.show()

思路：

取出所有商店10月份的数据。
将商店的客流量分组求和再除以所有商店的客流量得到比例。
绘制饼图。

执行结果：
在这里插入图片描述

2）皮马印第安人糖尿病数据可视化

a) 数据来源： http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes

“pima.csv”数据前 9 个字段的含义：
(1) Number of times pregnant
(2) Plasma glucose concentration a 2 hours in an oral glucose tolerance
test
(3) Diastolic blood pressure (mm Hg)
(4) Triceps skin fold thickness (mm)
(5) 2-Hour serum insulin (mu U/ml)
(6) Body mass index (weight in kg/(height in m)^2)
(7) Diabetes pedigree function
(8) Age (years)
(9) Class variable (0 or 1)
b) 实验要求：
读取数据：

import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import andrews_curves

pima = pd.read_csv('dataset/pima.csv', header = None)

（1）任选两个字段绘制散点图。

代码：

pima.columns = ['Number of times pregnant',  
                'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',  
                'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',  
                '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',  
                'Age (years)', 'Class variable'] 
PregnantNum = pima[['Age (years)', 'Number of times pregnant']]

means = PregnantNum['Number of times pregnant'].mean()

ax = PregnantNum[PregnantNum['Number of times pregnant'] >= means].plot(x = 'Age (years)', y = 'Number of times pregnant', kind='scatter', c='red', ax = None, label = 'Number of times pregnant >= mean')
PregnantNum[PregnantNum['Number of times pregnant'] < means].plot(x = 'Age (years)', y = 'Number of times pregnant', kind='scatter', c='blue', ax = ax, label = 'Number of times pregnant < mean')

思路：

为每一列加上列索引。
取出Age (years)和Number of times pregnant这两列。
求出Number of times pregnant的均值，怀孕次数大于均值的为红色，小于均值的为蓝色。
绘制散点图。

执行结果：
在这里插入图片描述

（2）使用全部或者部分特征绘制散布图。

代码：

color = {1:'green', 0:'red'}
pd.scatter_matrix(pima.iloc[:, [1, 2, 3]], figsize=(9,9), diagonal='kde', marker='o',
                 s = 40, alpha = 0.4,  c = pima['Class variable'].apply(lambda x : color[x]))
plt.show()

思路：

选择Plasma glucose concentration a 2 hours in an oral glucose tolerance test、Diastolic blood pressure (mm Hg) 、Triceps skin fold thickness (mm)和Class variable绘制图像。

执行结果：
在这里插入图片描述

（3）绘制调和曲线图

代码：

andrews_curves(pima, 'Class variable', color=['b', 'green'])
plt.show()

思路：

选择蓝色和绿色绘制调和曲线图

执行结果：
在这里插入图片描述

吃饭243

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘导论——可视化分析实验

数据挖掘导论——可视化分析实验
复制链接

扫一扫

专栏目录