学习打卡：心电图心跳信号多分类预测的EDA-数据探索性分析

最新推荐文章于 2021-03-22 13:59:32 发布

human类

最新推荐文章于 2021-03-22 13:59:32 发布

阅读量300

点赞数 1

文章标签：可视化 python 数据分析

本文链接：https://blog.csdn.net/weixin_45469535/article/details/115017528

版权

1.1 EDA 目标

EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。

1.2 内容介绍

载入各种数据科学以及可视化库:
- 数据科学库 pandas、numpy、scipy；
- 可视化库 matplotlib、seaborn；
载入数据：
- 载入训练集和测试集；
- 简略观察数据(head()+shape)；
数据总览:
- 通过describe()来熟悉数据的相关统计量
- 通过info()来熟悉数据类型
判断数据缺失和异常
- 查看每列的存在nan情况
- 异常值检测
了解预测值的分布
- 总体分布概况
- 查看skewness and kurtosis
- 查看预测值的具体频数

1.3 代码展示

1.3.1 载入各种数据科学与可视化库

# 导入warnings包，利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')
# 导入用于数据缺失值处理的库
import missingno as msno
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns
import numpy as np

1.3.2 载入训练集和测试集

导入训练集train.csv

train_data = pd.read_csv("./train.csv")

导入测试集testA.csv

test_data = pd.read_csv("./testA.csv")

为方便观看，为所有特征集脱敏处理

id - 心跳信号分配的唯一标识
heartbeat_signals - 心跳信号序列
label - 心跳信号类别（0、1、2、3）

观察训练集首尾数据

train_data.head().append(train_data.tail())

	id	heartbeat_signals	label
0	0	0.9912297987616655,0.9435330436439665,0.764677...	0.0
1	1	0.9714822034884503,0.9289687459588268,0.572932...	0.0
2	2	1.0,0.9591487564065292,0.7013782792997189,0.23...	2.0
3	3	0.9757952826275774,0.9340884687738161,0.659636...	0.0
4	4	0.0,0.055816398940721094,0.26129357194994196,0...	2.0
99995	99995	1.0,0.677705342021188,0.22239242747868546,0.25...	0.0
99996	99996	0.92685715781

最低0.47元/天解锁文章

human类

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
学习打卡：心电图心跳信号多分类预测的EDA-数据探索性分析

1.1 EDA 目标EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析，并对于数据进行一些图表或者文字总结并打卡。1.2 内容介绍载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy
复制链接

扫一扫