广工大数协 阿里云天池 金融风控训练营 - Task2 数据分析

本文介绍了阿里云天池金融风控训练营的学习内容,包括数据集分析的各个方面:数据总体了解,缺失值和唯一值检查,数据类型的深入分析,变量分布可视化,时间格式数据处理和透视图的使用。还提到了pandas_profiling工具在生成数据报告中的应用,以及在学习过程中遇到的问题和解决方案。强调了数据探索性分析在理解数据和预处理中的关键作用。
摘要由CSDN通过智能技术生成

本学习笔记为阿里云天池龙珠计划Docker训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampdocker

一、学习知识点概要

  1. 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)

  2. 学习深入数据-查看数据类型

  3. 学习了解变量间的相互关系、变量与预测值之间的存在关系

  4. 学习用pandas_profiling生成数据报告


二、学习内容

2.1  数据总体了解

1.读取数据集并了解数据集大小,原始特征维度

#读取文件(需要先下载数据集)
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')
#查看数据集的样本个数和原始特征维度
data_test_a.shape
data_train.shape
data_train.columns

*读取文件的拓展知识:

  • pandas读取数据时相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。

  • TSV与CSV的区别:

    • 从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符;

    • Python对TSV文件的支持: Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。当delimiter='\t'时,被处理文件就是TSV。

  • 读取文件的部分(适用于文件特别大的场景)

    • 通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。

    • 分块读取

data_train_sample = pd.read_csv("train.csv",nrows=5)
#设置chunksize参数,来控制每次迭代数据的大小
i = 0  # 控制输出
chunker = pd.read_csv("train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #<class 'pandas.core.frame.DataFrame'>
    print(len(item))
    i+=1
    if i >= 4:   # 由于数据量过大,限制输出4条就跳出循环
        break
    #5

2.通过info熟悉数据类型

data_train.info()

3.粗略查看数据集中各特征基本统计量

#总体粗略的查看数据集各个特征的一些基本统计量
data_train.describe()
data_train.head(3).append(data_train.tail(3))

2.2  缺失值和唯一值

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值