载入数据
载入训练集和测试集
读取数据代码
csv形式
Test_data = pd.read_csv('testA.csv', sep=' ')
简略观察数据(head()+shape)
Teas_data.head() ##读取前五行
.tail() ##读取后五行
.append() ##在列表后面添加新的对象
.head().append(.tali()) ##读取前五行和后五行
.shape() ##查看数据的行和列
## 数据总
览
.describe() ——相关统计量
对于数值型数据进行结果的索引,其中包括计数,平均值,标准差,最小值,分位数,最大值。(其中在箱线图中也有涉及到分为数的概念)
作为描述性统计,下面来谈一下它们的好处:
平均值:对于数值型数据,平均值可以用来代表被分析对象的一个平均水平
对于平均值其实又分为:
算术平均 ( x + y ) / 2 (x+y)/2 (x+y)/2;
几何平均 s q r t ( x y ) sqrt(xy) sqrt(xy);
加权平均-给各值赋予权重之后再计算平均值,和算术平均相似;
滑动平均:用于处理和时间序列有关的数据,气象、股票预测上会用上,还利用此搭建相关模型:滑动平均模型,指数滑动平均等
注:在数据间差异较大时应该警惕由平均值带来的“忽悠”。有时候结果反映是比较片面的。
标准差:可以反映一个数据集的离散程度(分散程度,波动程度等)
最小值
下四分位数
中位数
上四分位数
最大值
四分位数的作用:是能够识别可能的异常值,可以对异常值进行适当的检验和处理,可以使得最终的结果更具代表性。
.info() ——数据类型
判断数据缺失和异常:
.isnull() ## ——判断缺失值
.isnull().sum() ##——判断缺失值并把列中的空个数统计出来
将缺失值可视化为条形图:
missing = .isnull().sum()
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar() ##画条形图
查看每列的存在nan情况
异常值检测
了解预测值的分布
总体分布概况(无界约翰逊分布等)
简单来说约翰逊分布族是用来描述非正态数据的,并利用与标准正态分布Z的变化关系,通过一定的转换,利用正态表计算约翰逊的相关概率。
相关的可以查看论文:
[https://wenku.baidu.com/view/a8b3193183c4bb4cf7ecd125.html]
查看skewness and kurtosis(偏度和峰度)
偏度
是用来统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征,有正偏态(右偏代表的是尾巴托在右边)、正态、负偏态(左偏)
我们可以通过偏度值来查看值得集中地方,同时可以从图像中看出其尾的厚薄程度,偏斜程度。
峰度
用来表示概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。
峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。
查看预测值的具体频数
log变换:对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布
因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布
特征分类
特征分为类别特征和数字特征,并对类别特征查看unique分布
类型
先对数据进行特征的分类,分为两类:类别 和 数字
之后分别查看特征的分布情况(用unique)
数字
-
数字特征分析
-
相关性分析
直接利用一行代码,解决数字列与价格之间的相关性 -
画热图:
相关热图可以链接
[https://blog.csdn.net/m0_38103546/article/details/79935671]
[https://blog.csdn.net/u011240016/article/details/83756548]
[https://www.cnblogs.com/jiaxinwei/p/12015968.html]
查看几个特征得 偏度和峰值
每个数字特征得分布可视化
数字特征相互之间的关系可视化
可视化更多学习可参考很不错的文章 [https://www.jianshu.com/p/6e18d21a4cad]
多变量互相回归关系可视化
类型特征分析
-
unique分布
-
类别特征箱形图可视化
-
类别特征的小提琴图可视化
-
类别特征的柱形图可视化类别
-
特征的每个类别频数可视化(count_plot)
-
用pandas_profiling生成数据报告