数据分析
文章平均质量分 86
YakultGo
这个作者很懒,什么都没留下…
展开
-
金融风控-贷款违约预测
**摘要:**赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。比赛原创 2020-09-14 16:26:31 · 4480 阅读 · 1 评论 -
泰坦尼克号生存预测(多种模型实现)python
泰坦尼克号生成预测这是kaggle上面比较入门的一个比赛。今天让我们来看看怎么做吧。kaggle传送门。首先报名,下载数据集。数据载入及概述首先导入从Kaggle上面下载的数据集,在导入的过程中就需要先导入一些必备的包了。import numpy as npimport pandas as pd# 接着导入我们的训练数据filename = 'titanic/train.csv' # 这是我存放的文件路径,这边换成你们自己的train = pd.read_csv(filename)然原创 2020-08-21 00:31:09 · 4328 阅读 · 2 评论 -
资金流入流出预测实践
一、数据探索与分析首先来看看seaborn这个库的用法,因为我们在作分析的时候,会频繁的使用这个库。Seaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib原创 2020-08-18 16:51:16 · 518 阅读 · 0 评论 -
(二)数据处理及特征清理
2.1 缺失值观察与处理我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢。2.1.1 缺失值观察还是以泰坦尼克号的数据为例。查看各个特征缺失值个数# 首先导入库和数据import numpy as npimport pandas as pddf = pd.read_csv('train.csv')方法1:df.info()不过这样显示的是非缺失值的数据,不够直观。方法2:df.isnull().sum()原创 2020-08-18 15:00:40 · 304 阅读 · 0 评论 -
(一)数据加载及探索性数据分析
导入numpy和pandas# 如果没安装这两个库可以通过# conda install numpy 或者 pip install numpy# conda install pandas 或者 pip install pandasimport numpy as npimport pandas as pd载入数据虽然有上面那么多种用法,不过用的最多的还是read_csv和read_table这两个。这次学习使用的是泰坦尼克号的数据,kaggle链接——https://www.kaggle.原创 2020-08-16 12:04:03 · 182 阅读 · 0 评论