广工大数协阿里云天池金融风控训练营 - Task2 数据分析

最新推荐文章于 2022-03-16 11:01:54 发布

weixin_45242926

最新推荐文章于 2022-03-16 11:01:54 发布

阅读量151

点赞数

本文链接：https://blog.csdn.net/weixin_45242926/article/details/116137019

版权

本文介绍了阿里云天池金融风控训练营的学习内容，包括数据集分析的各个方面：数据总体了解，缺失值和唯一值检查，数据类型的深入分析，变量分布可视化，时间格式数据处理和透视图的使用。还提到了pandas_profiling工具在生成数据报告中的应用，以及在学习过程中遇到的问题和解决方案。强调了数据探索性分析在理解数据和预处理中的关键作用。

摘要由CSDN通过智能技术生成

本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker

一、学习知识点概要

学习如何对数据集整体概况进行分析，包括数据集的基本情况（缺失值，异常值）
学习深入数据-查看数据类型
学习了解变量间的相互关系、变量与预测值之间的存在关系
学习用pandas_profiling生成数据报告

二、学习内容

2.1 数据总体了解

1.读取数据集并了解数据集大小，原始特征维度

#读取文件（需要先下载数据集）
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')

#查看数据集的样本个数和原始特征维度
data_test_a.shape

data_train.shape

data_train.columns

*读取文件的拓展知识：

pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。
TSV与CSV的区别：
- 从名称上即可知道，TSV是用制表符（Tab,'\t'）作为字段值的分隔符；CSV是用半角逗号（','）作为字段值的分隔符；
- Python对TSV文件的支持： Python的csv模块准确的讲应该叫做dsv模块，因为它实际上是支持范式的分隔符分隔值文件（DSV，delimiter-separated values）的。 delimiter参数值默认为半角逗号，即默认将被处理文件视为CSV。当delimiter='\t'时，被处理文件就是TSV。
读取文件的部分（适用于文件特别大的场景）
- 通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。
- 分块读取

data_train_sample = pd.read_csv("train.csv",nrows=5)
#设置chunksize参数，来控制每次迭代数据的大小
i = 0  # 控制输出
chunker = pd.read_csv("train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #<class 'pandas.core.frame.DataFrame'>
    print(len(item))
    i+=1
    if i >= 4:   # 由于数据量过大，限制输出4条就跳出循环
        break
    #5

2.通过info熟悉数据类型

data_train.info()

3.粗略查看数据集中各特征基本统计量

#总体粗略的查看数据集各个特征的一些基本统计量
data_train.describe()

data_train.head(3).append(data_train.tail(3))

2.2 缺失值和唯一值

最低0.47元/天解锁文章

weixin_45242926

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
广工大数协阿里云天池金融风控训练营 - Task2 数据分析

本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容，学习链接为：https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker一、学习知识点概要学习如何对数据集整体概况进行分析，包括数据集的基本情况（缺失值，异常值）学习深入数据-查看数据类型学习了解变量间的相互关系、变量与预测值之间的存在关系学习用pandas_profiling生成数据报告二、学习内容2.1 数据总体.
复制链接

扫一扫