金融风控训练营Task02学习笔记

最新推荐文章于 2024-09-05 22:23:26 发布

Ag+Cu

最新推荐文章于 2024-09-05 22:23:26 发布

阅读量169

点赞数

分类专栏：金融风控学习笔记文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_43695233/article/details/116081453

版权

金融风控学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了数据科学工作流程的关键步骤，包括使用pandas加载数据、分析数据特性、检查缺失值，以及利用matplotlib和seaborn进行数据可视化。强调了数据可视化的价值，指出它能帮助提升对数据直觉的理解，并揭示不同尺度下数据的隐藏规律。对于存在大量缺失值的现实世界数据集，如何处理和分析显得尤为重要。

摘要由CSDN通过智能技术生成

一·学习知识点概要

导入数据
分析数据
2.1 查看样本个数和数据维度、理解特征含义
2.2 查看数据类型
查看数据
3.1 查看数据各特征的基本统计量
3.2 查看数据特征缺失值和唯一值
变量分析
4.1 连续型变量分析
4.2 非数值类别型变量分析
数据可视化
5.1 单一变量分布可视化
5.2 时间格式数据
5.3 透视图
生成数据报告

二·学习内容

1. 导入数据

工具库：pandas
函数：read_csv 参数nrows：设置读取文件的前多少行

2. 分析数据

查看样本个数和特征维度

.shape
.columns：查看列

查看数据类型

.info()：获得各特征的特征值的数据类型

3. 查看数据

工具库：matplotlib

查看数据各特征的基本统计量

.describe()：统计量分别为count(数量)、mean(平均值)、std(标准差)、min(最小值)、四分位值、max(最大值)
.head()：查看头部数据，参数为数字n，表示查看前几行
.tail()：查看尾部数据，参数同理

查看数据特征缺失值和唯一值

.isnull()：数据是否缺失
.any()：判断给定的可迭代函数是否全为false，则返回false，如果有一个为True，则返回True
.sum()：求和
.sort_values(inplace = True)：给数据排序并代替原数据

4. 变量分析

工具库：seaborn

连续性变量分析

.melt()：把宽数据变为长数据
.FacetGrid()：提供画布
.map()：绘图

5. 数据可视化

单一变量分布可视化

.barplot()：绘制条形图

时间格式数据处理及查看

.to_datetime()：转换为时间
.strptime()：根据指定的格式把一个时间字符串解析为时间元组
.pivot_table()：参数values指定变量

6. 生成数据报告

pandas_profiling

三·问题与解答

暂无

四·思考与总结

• 上面我们用value_counts()等函数看了特征属性的分布，但是图表是概括原始信息最便捷的方式。
• 数无形时少直觉。
• 同一份数据集，在不同的尺度刻画上显示出来的图形反映的规律是不一样的。python将数据转化成图表，但结论是否正确需要由你保证。
• 47列数据中有22列都缺少数据，这在现实世界中很正常。

Ag+Cu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
金融风控训练营Task02学习笔记

一·学习知识点概要导入数据分析数据2.1 查看样本个数和数据维度、理解特征含义2.2 查看数据类型查看数据3.1 查看数据各特征的基本统计量3.2 查看数据特征缺失值和唯一值变量分析4.1 连续型变量分析4.2 非数值类别型变量分析数据可视化5.1 单一变量分布可视化5.2 时间格式数据5.3 透视图生成数据报告二·学习内容1. 导入数据工具库：pandas函数：read_csv 参数nrows：设置读取文件的前多少行2. 分析数据查看样本个数和特征维度.s
复制链接

扫一扫