数据分析项目实战
文章平均质量分 79
浩 k
这个作者很懒,什么都没留下…
展开
-
Pyspark+tensorflow-信用贷款数据分析实战(四)——提取数据代码
4.代码利用pandas.DataFrame来做数据预处理import pandas as pdimport os#切换到保存数据的目录下os.chdir('/Users/mac/spark/bank_sample')#列出目录的文件名loanfile = os.listdir()loanfile#output:"""['RFM_TRAD_FLOW.csv','distr...原创 2019-12-31 10:37:11 · 931 阅读 · 0 评论 -
Pyspark+tensorflow-信用贷款数据分析实战(三)——数据提取
3.数据提取目的:建立因果关系模型数据提取的时候要对数据有一定的认识,不能是相关而应该是因果(区分相关关系和因果关系),预测的变量x要在被预测变量y之前取得相关关系:一个小孩子身高的长高速度和GDP增长的速度就可以做相关关系,但这明显没有什么关系。因果关系:家庭收入和全国GDP总量,这就明显具有一定的因果关系。细分了特征变量之后,就有了下面的模型框架:观察窗口(历史)看解释变量...原创 2019-12-31 10:36:14 · 648 阅读 · 0 评论 -
Pyspark+tensorflow-信用贷款数据分析实战(二)——业务理解
2.业务理解根据什么指标(变量)预测客户是否会欠贷?建立客户的违约模型,就需要确定变量X对违约状态Y的影响以及之后用到预测,这种根据属性,状态,行为来构建变量,是很低效的。就算使用几千个几万个变量加上一定的算法构建出来了一个模型,这种模型是没有价值的所以要对违约这个业务情况进行分析:违约收益:借了一万,打死不还钱,赚了1万违约成本:不还款就会有成本(征信,信用,...原创 2019-12-31 10:35:14 · 477 阅读 · 0 评论 -
Pyspark+tensorflow-信用贷款数据分析实战(一)——了解数据
1.了解数据本数据为一家银行的个人金融业务数据集,可以作为银行场景下进行个人客户业务分析和数据挖掘的示例,这份数据中涉及到5300个银行客户的100万笔交易,涉及700份贷款信息,近900张信用卡的数据。通过分析这份数据可以获取相关的业务知识例如:1.提供增值服务的银行客户经理,希望明确哪些客户有更多的业务需求。 2.风险管理的业务人员可以及早发现贷款的潜在损失,根据客户贷款前的属...原创 2019-12-31 10:34:01 · 2845 阅读 · 0 评论 -
Phishing website analyse(二) ——自定义深度神经网络函数分析
Phishing website analyse(二)自定义深度神经网络函数分析数据集与Phishing website analyse(一)——决策树分析里的一样,数据集不提供,自行百度代码实现import numpy as npimport matplotlib.pyplot as plt# # 加载我们自定义的工具函数# from testCases import *...原创 2019-12-11 11:29:56 · 483 阅读 · 0 评论 -
Phishing website analyse(一)——决策树方法分析
Phishing website analyse(一)决策树方法分析数据集有1万多条记录,30个特征属性,1个结果属性,属性意义可以在下载数据的网页找到描述文件代码实现生成决策树模型import numpy as npimport pandas as pdorigin_data = pd.read_csv('phishing.csv')data = origin_data.d...原创 2019-12-11 11:16:38 · 688 阅读 · 0 评论