本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker
一、学习知识点概要
-
学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
-
学习深入数据-查看数据类型
-
学习了解变量间的相互关系、变量与预测值之间的存在关系
-
学习用pandas_profiling生成数据报告
二、学习内容
2.1 数据总体了解
1.读取数据集并了解数据集大小,原始特征维度
#读取文件(需要先下载数据集)
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')
#查看数据集的样本个数和原始特征维度
data_test_a.shape
data_train.shape
data_train.columns
*读取文件的拓展知识:
-
pandas读取数据时相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。
-
TSV与CSV的区别:
-
从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符;
-
Python对TSV文件的支持: Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。当delimiter='\t'时,被处理文件就是TSV。
-
-
读取文件的部分(适用于文件特别大的场景)
-
通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。
-
分块读取
-
data_train_sample = pd.read_csv("train.csv",nrows=5)
#设置chunksize参数,来控制每次迭代数据的大小
i = 0 # 控制输出
chunker = pd.read_csv("train.csv",chunksize=5)
for item in chunker:
print(type(item))
#<class 'pandas.core.frame.DataFrame'>
print(len(item))
i+=1
if i >= 4: # 由于数据量过大,限制输出4条就跳出循环
break
#5
2.通过info熟悉数据类型
data_train.info()
3.粗略查看数据集中各特征基本统计量
#总体粗略的查看数据集各个特征的一些基本统计量
data_train.describe()
data_train.head(3).append(data_train.tail(3))
2.2 缺失值和唯一值