2021-03-17零基础入门数据挖掘-心跳信号分类预测

最新推荐文章于 2023-07-29 00:46:18 发布

凭轩听雨199407

最新推荐文章于 2023-07-29 00:46:18 发布

阅读量666

点赞数 1

分类专栏：学习

本文链接：https://blog.csdn.net/weixin_46870583/article/details/114935354

版权

学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

零基础入门数据挖掘-心跳信号分类预测TASK02

1.学习目标：
2.学习内容

1.学习目标：

数据探索性分析EDA

为什么要做EDA：

了解数据集
了解变量间的相互关系、变量与预测值之间的存在关系
引导数据处理以及特征工程

2.学习内容

2.1载入库

载入各种数据科学以及可视化库:
数据科学库 pandas、numpy、scipy；
可视化库 matplotlib、seabon；

import warnings
warnings.filterwarnings('ignore')
import missingno as msno
import pandas as pd
from pandas import DataFrame,Series#(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

其中，

包	介绍
missingno	数据分析之前首先要保证数据集的质量，missingno库提供了一个灵活易用的可视化工具来观察数据缺失情况，是基于matplotlib的，接受pandas数据源。 msno.matrix()是使用最多的函数，能快速直观地看到数据集的完整性情况，矩阵显示。最多支持50列。
seaborn	Seaborn: statistical data visualization Seaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。

包

介绍

missingno

数据分析之前首先要保证数据集的质量，missingno库提供了一个灵活易用的可视化工具来观察数据缺失情况，是基于matplotlib的，接受pandas数据源。 msno.matrix()是使用最多的函数，能快速直观地看到数据集的完整性情况，矩阵显示。最多支持50列。

seaborn

Seaborn: statistical data visualization Seaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。

2.2载入数据

path1 = r'D:\python\JupyterNotebookFile\train.csv'
path2 = r'D:\python\JupyterNotebookFile\testA.csv'
train = pd.read_csv(path1)
test = pd.read_csv(path2)
train.head().append(train.tail())#把头5行和尾5行拼接在一起

在这里插入图片描述

test.head().append(test.tail())

在这里插入图片描述

print(train.shape,test.shape)

在这里插入图片描述

2.3数据总览

print(train.describe(),train.info())
print(test.describe(),test.info())

在这里插入图片描述
其中，
mean是平均值
std是标准差。

2.4数据缺失和异常

print(train.isnull().sum())
print(test.isnull().sum())

在这里插入图片描述
异常值检测可以用箱线图：
判断标准：变量的数据值大于箱线图上须或者小于箱线图的下须，就可以认为这样的数据点为异常值点。
参考资料：
https://blog.csdn.net/qq_38121967/article/details/89919607
函数参数解释如下

plt.boxplot(x,    # 指定要绘制箱线图的数据；
            notch=None,    # 是否是凹口的形式展现箱线图，默认非凹口；
            sym=None,    # 指定异常点的形状，默认为+号显示；
            vert=None,    # 是否需要将箱线图垂直摆放，默认垂直摆放；
            whis=None,    # 指定上下须与上下四分位的距离，默认为1.5倍的四分位差；
            positions=None,    # 指定箱线图的位置，默认为[0,1,2…]；
            widths=None,    # 指定箱线图的宽度，默认为0.5；
            patch_artist=None,    # 是否填充箱体的颜色；
            bootstrap=None,    #
            usermedians=None,    #
            conf_intervals=None,    #
            meanline=None,    # 是否用线的形式表示均值，默认用点来表示；
            showmeans=None,    # 是否显示均值，默认不显示；
            showcaps=None,    # 是否显示箱线图顶端和末端的两条线，默认显示；
            showbox=None,    # 是否显示箱线图的箱体，默认显示；
            showfliers=None,    # 是否显示异常值，默认显示；
            boxprops=None,    # 设置箱体的属性，如边框色，填充色等；
            labels=None,    # 为箱线图添加标签，类似于图例的作用；
            flierprops=None,    # 设置异常值的属性，如异常点的形状、大小、填充色等；
            medianprops=None,    # 设置中位数的属性，如线的类型、粗细等；
            meanprops=None,    # 设置均值的属性，如点的大小、颜色等；
            capprops=None,    # 设置箱线图顶端和末端线条的属性，如颜色、粗细等；
            whiskerprops=None,    # 设置须的属性，如颜色、粗细、线的类型等
            manage_xticks=True,    #
            autorange=False,    #
            zorder=None,    #
            hold=None,    #
            data=None)

2.5预测值分布

关于正态分布，这篇文章有所讲解：
https://blog.csdn.net/mintminty/article/details/105049228
以下摘取一部分写于此。
2.5.1.为什么要服从正态分布：
数据整体服从正态分布，那样本均值和方差则相互独立，正态分布具有很多好的性质，很多模型假设数据服从正态分布。例如线性回归（linear regression），它假设误差服从正态分布，从而每个样本点出现的概率就可以表示为正态分布形式，将多个样本点连乘再取对数，就是所有训练集样本出现的条件概率，最大化该条件概率就是LR最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。总之， ML中很多model都假设数据或参数服从正态分布。
2.5.2样本不服从正态分布怎么办

线性变化z-scores
使用Boxcox 变换
使用 yeo-johnson 变换

2.5.3无界约翰逊分布
当样本数据表明质量特征的分布为非正态时，应用基于正态分布的方法会作出不正确的判决。约翰逊分布族即为经约翰变换后服从正态分布的随机变量的概率分布，约翰逊分布体系建立了三族分布，分别为有界S_B 、对数正态S_L和无界S_U。

train['label'].value_counts()

在这里插入图片描述
1) 总体分布概况（无界约翰逊分布等）
约翰逊概率分布分为：有界、半界、无界

以上4张图摘自：
https://reference.wolfram.com/language/ref/JohnsonDistribution.html

import scipy.stats as st
y = train['label']
plt.figure(1);plt.title('Default')
sns.distplot(y, rug = True, bins = 20)
plt.figure(2);plt.title('Normal')
sns.distplot(y, kde = False, fit = st.norm)
plt.figure(3);plt.title('Log Normal')
sns.distplot(y, kde = False, fit = st.lognorm)

在这里插入图片描述
其中，对于sns.distplot介绍如下：
sns.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)

参数	介绍
a	要画图的数据
bins	int或list，控制直方图的划分
hist	是否显示直方图
kde	是否显示核密度估计
rug	控制是否生成观测数值的小细条
fit	控制拟合的参数分布图形，能够直观地评估它与观察数据的对应关系。
hist_kws	利用hist_kws传入字典调整直方图部分色彩和透明度。如：hist_kws={‘alpha’:0.6,‘color’:‘orange’}表示透明度0.6
rug_kws	利用rug_kws传入字典调整rugplot部分小短条色彩
fit_kws	可以设置拟合的曲线颜色。接收字典类型，可以自行定义更多高级的样式
color	用于控制除了fit部分拟合出的曲线之外的所有对象的色彩
vertical	bool型，控制是否颠倒x-y轴，默认为False，即不颠倒
norm_hist	bool型变量，用于控制直方图高度代表的意义，为True直方图高度表示对应的密度，为False时代表的是对应的直方区间内记录值个数，默认为False
label	控制图像中的图例标签显示内容

补充：
kdeplot相关参数介绍：
https://www.cntofu.com/book/172/docs/25.md
关于bw，是用于确定双变量图的每个维的核大小、标量因子或标量的参考方法的名称。我理解的就是bw=2比bw=0.2的图更矮更胖一些，也就是所谓的核更大？不知道是否正确。
在这里插入图片描述

2）查看skewness and kurtosis

skewness偏度:
是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。
偏度定义中包括正态分布（偏度=0），右偏分布（也叫正偏分布，其偏度>0），左偏分布（也叫负偏分布，其偏度<0）。
kurtosis峰度
峰度（peakedness；kurtosis）又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。随机变量的峰度计算方法为：随机变量的四阶中心矩与方差平方的比值。
峰度包括正态分布（峰度值=3），厚尾（峰度值>3），瘦尾（峰度值<3）

sns.distplot(train['label'])
print('Skewness: %f' % train['label'].skew())
print('Kurtosis: %f' % train['label'].kurt())

在这里插入图片描述

print(train.skew(),  train.kurt())

在这里插入图片描述

sns.distplot(train.kurt(), color = 'orange', axlabel = 'Kurtness')

在这里插入图片描述
3)查看预测值的具体频数
直方图

plt.hist(train['label'], orientation = 'vertical', histtype = 'bar', color = 'red')
plt.show()

在这里插入图片描述
4）用pandas_profiling生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(train)
pfr.to_file('./example.html')

在这里插入图片描述

凭轩听雨199407

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
6
评论
2021-03-17零基础入门数据挖掘-心跳信号分类预测

零基础入门数据挖掘-心跳信号分类预测TASK021.学习目标：2.学习内容2.1载入库2.2载入数据2.3数据总览2.4数据缺失和异常2.5预测值分布1.学习目标：数据探索性分析EDA为什么要做EDA：了解数据集了解变量间的相互关系、变量与预测值之间的存在关系引导数据处理以及特征工程2.学习内容2.1载入库载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon；import warningswarnings.
复制链接

扫一扫