广工大数协 阿里云天池 金融风控训练营 - Task2 数据分析学习笔记

这篇学习笔记详细记录了在阿里云天池金融风控训练营Task2中的数据分析过程,包括使用Python的Pandas库进行数据读取、特征分析、变量分布可视化、时间格式数据处理、透视图生成以及数据报告制作。通过这些步骤,深入理解数据,为后续的特征工程打下基础。
摘要由CSDN通过智能技术生成

目录

 

Task 2

一、学习知识点概要(数据分析)

二、学习内容

1.读取文件

目录

Task 2

一、学习知识点概要(数据分析)

二、学习内容

1.读取文件

2. 查看数据集的样本个数和原始特征维度

4.查看特征的数值类型有哪些,对象类型有哪些 

5.数值连续型变量分析 

6.变量分布可视化 

7.时间格式数据处理及查看

8.使用pivot_table生成透视图

9.用pandas_profiling生成数据报告

三、学习问题及解答

四、学习思考与总结

 

 


 

2. 查看数据集的样本个数和原始特征维度

4.查看特征的数值类型有哪些,对象类型有哪些 

5.数值连续型变量分析 

6.变量分布可视化 

7.时间格式数据处理及查看

8.使用pivot_table生成透视图https://www.cnblogs.com/Yanjy-OnlyOne/p/11195621.html

9.用pandas_profiling生成数据报告

三、学习问题及解答

四、学习思考与总结

 

 


Task 2

一、学习知识点概要(数据分析)

了解数据,熟悉数据,为后续的特征工程做准备

  • 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
  • 学习了解变量间的相互关系、变量与预测值之间的存在关系

二、学习内容

pandas中常用函数总结

Python pandas常用函数详解

df:任意的Pandas DataFrame对象
s:任意的Pandas Series对象

1.读取文件

使用read_csv函数:从文件、URL或文件型对象读取分隔好的数据,逗号是默认分隔符       pd.read_csv(filename)

使用read_table函数:从文件、URL或文件型对象读取分隔好的数据,制表符(“\t”)是默认分隔符    pd.read_table(filename)

使用read_fwf函数:从特定宽度格式的文件中读取数据(无分隔符&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值