数据源:Kaggle网站上一个“blackFriday.csv”文件( Kaggle网站是一个流行的数据科学竞赛平台),下载下来的数据字段如下:
本节通过该数据,练习使用数据的三维图形化、相关性及相关性热力图,直观地查看出哪些因素影响购买力,其三维散点图是怎样的。
一、怎样查看哪些因素影响购买力?
方法1:逐一探索各字段对购买力的影响趋势
数据量较小时,可以逐一查看每个字段与购买额字段的相关系数。相关系数较大的,影响力就大。
而本文件数据量较大(53万条),不便直接展示各字段与购买额之间的散点图,所以可将研究字段比如年龄,可以按年龄段分组后取均值,然后再研究。
但该方法需要研究的字段较多,逐一探索的方法效率较低。因此考虑使用方法2。
方法2:使用Dataframe的corr()函数查看各字段之间的相关性
该方法可以更快地分析出各字段之间的相关性,自然也可以看出每个字段与购买额字段的相关系数,从而更快捷、更方便地观察出最具影响力的属性。
二、图形化展示某因素对购买力的影响
根据方法2,逐步在python中实现,步骤如下:
Step1、看各因素之间的相关性
使用pd.read_csv()读入数据,生成DataFrame类型的变量。
使用dataframe.corr(),查看各字段之间的相关性。
【脚本及结果】