数据挖掘
文章平均质量分 76
fcyh
A man must be on his own
展开
-
增长模型—评分卡模型
一、评分卡模型PS:核心点在于我们需要一个判别指标来对数据进行打标签分类1、项目简介:信用评分技术是一种应用统计模型,其作用是对贷款申请人做风险评估分值的方法。在互金公司等各种贷款业务机构中,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判。评分卡主要分为三类A卡(申请评分卡)、B卡(行为评分卡)、C卡(贷后评分卡)。我们主要讨论的是A卡即申请评分卡,用于贷前审批阶段对借款申请人的量化评估;2、评分卡原理:申请评分卡是一种统计模型,它可基于对当前申请...原创 2020-09-16 20:57:16 · 1266 阅读 · 0 评论 -
决策树---ID3算法(介绍及Python实现)
决策树---ID3算法 决策树:以天气数据库的训练数据为例。 OutlookTemperatureHumidityWindyPlayGolf?sunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesr原创 2017-07-08 10:02:11 · 928 阅读 · 1 评论 -
H2O中的随机森林算法介绍及其项目实战(python实现)
H2O中的随机森林算法介绍及其项目实战(python实现)包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator H2ORandomForestEstimator 的常用方法和参数介绍: (一)建模方法: model =H2ORandomForestEstimator(ntrees=n,max_depth原创 2017-07-08 10:02:55 · 1704 阅读 · 0 评论 -
利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 。 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习。并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果。通过调节聚类算法的参数,来观察聚类效果的变化,练习调参。数据介绍: 选取某一个原创 2017-07-08 10:02:40 · 3800 阅读 · 7 评论 -
数据挖掘150道笔试题
数据挖掘150道笔试题单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现 B. 聚类C. 分类 D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少...原创 2018-03-29 21:33:29 · 7477 阅读 · 0 评论 -
Windows下pip安装及更新出现“UnicodeEncodeError: 'ascii' codec can't encode character u'\u258c' in position 8:
Windows下pip安装及更新出现“UnicodeEncodeError: 'ascii' codec can't encode character u'\u258c' in position 8: ordinal not in range(128)”问题解决办法 问题显示如下: 1.找到Python安装包的路径Lib\site-packages(如:E:\python27\...原创 2018-09-29 21:13:59 · 2553 阅读 · 2 评论 -
三大相关系数: pearson, spearman, kendall(python示例实现)
三大相关系数: pearson, spearman, kendall统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1。0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1. person correlation coefficient(皮尔森相关性系数)皮尔逊相关...原创 2019-09-17 21:09:12 · 7139 阅读 · 0 评论