- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 熵权法及其实现(R、Python、Matlab、Excel)
熵权法及其实现matalb【评价算法】01. 熵权法确定权重https://zhuanlan.zhihu.com/p/28067337R【R语言】熵权法确定权重https://zhuanlan.zhihu.com/p/115411437Python综合评价方法 熵权法】指标权重确定方法之熵权法https://blog.csdn.net/u013421629/article/details/81221559?utm_medium=distribute.pc_relevant.none-
2020-10-20 14:11:47 3352
原创 基于Python的信用评分卡模型分析
发现一个基于Python构建信用评分卡模型的小项目,步骤非常清晰。这里分享给大家做个参考。基于Python的信用评分卡模型分析(一)一、项目流程二、数据获取三、数据预处理3.1 缺失值处理3.2 异常值处理3.3 数据切分四、探索性分析五、变量选择5.1 分箱处理5.2 WOE5.3 相关性分析和IV筛选如果不理解woe和IV,请看这篇,介绍的非常通俗易懂。数据挖掘模型中的IV和WOE详解基于Python的信用评分卡模型分析(二)六、模型分析6.1 WOE转换6.2
2020-07-29 19:10:21 456 1
原创 逻辑回归建模及变量重要性可视化(Python实现)
一、逻辑回归背景知识逻辑回归(Logistic Regression)是最常用的分类算法之一,因其简单直观可解释而广受欢迎。它来源于统计学中的广义线性模型(GLM),也是机器学习领域的基本算法。因本文重在分享对模型变量重要性的可视化,故在这里不对模型原理做过多说明。感兴趣的读者可以参考以下两篇文章。对于模型的思想、推导等步骤,可以参考以下文章。Logistic Regression(逻辑回归)详细讲解https://blog.csdn.net/joshly/article/details/50
2020-07-19 00:02:13 17040 13
原创 基于R语言的机器学习多分类任务(决策树、随机森林、朴素贝叶斯、支持向量机、KNN、BP神经网络)——UCL胎心宫缩监护数据(CTG.xls)预测分析
UCL胎心宫缩监护数据(CTG.xls)预测分析——基于R语言的机器学习分类(决策树、随机森林、朴素贝叶斯、支持向量机、KNN、BP神经网络模)摘要:本文针对UCL胎心宫缩监数据(Y有三个水平的多分类预测任务),利用R语言建立决策树、随机森林、朴素贝叶斯、支持向量机、KNN和BP神经网络模型进行预测。给出了任务(包括数据预处理(缺失值处理、异常值处理)、建模、模型评价等步骤)的详细代码,读者稍加改动便可运用到自己的机器学习分类任务中。一、数据来源与说明胎心宫缩监护(CTG.xls)来源于UCL机器
2020-07-15 13:36:41 10137 8
原创 Pandas中缺失值的相关概念与处理方法总结
本篇总结了Pandas中缺失值的相关概念、原理及处理方法,有助于学习者搭建系统框架,对于一些具体操作并未详细说明。请配合Datewhale社区的Joyful Pandas教材或者其他Pandas教材练习相关函数的具体操作,效果更佳。
2020-06-23 22:30:58 1039
原创 Datawhale Pandas研习社 第六次综合练习打卡
Datawhale Pandas研习社 第六次综合练习打卡学习感受转眼间教程的上半程就要结束了,时间过得飞快。在读研以后,愈发觉得学校能学到的真的很少(可能因为学校菜或者我菜,手动狗头),真正有用的都是自己学的!因为以后想从事数据分析相关工作,当然也因为对机器学习的兴趣,这就是我学习Python的原动力。说回教程,这份教程真的很详细,而且精准,所以以后会将它作为一份复习书或者工具字典来查。个...
2020-05-01 23:55:31 213
原创 数据合并概念与pandas/dplyr函数总结
数据合并概念与pandas/dplyr函数总结Datawhale Pandas研习社 第五次打卡记录——合并一、pandas数据合并知识结构思维导图二、关于数据合并——连接数据合并,从概念上讲,就是把异源或者异构的数据进行合并。如果一个数据集的数据量变的比原来大了,那么它一定合并了其他的数据集。从数据集的连接方式上说,主要可以分为内连接和外连接两大种,主要方式可以总结为下图。其实SQL...
2020-04-30 23:54:15 686
原创 数据变形 概念与pandas应用
Datawhale Pandas研习社 第四次打卡记录——变形一、主要知识点总结二、数据清洗之数据变形为什么要进行数据变形?一般来说,无论人工还是传感器采集的数据,都或多或少存在一些错误或者瑕疵,可能有数据重复或者不准确,导致数据存在很多默认值、缺失值、异常值等,因此我们拿到的数据往往无法直接进行分析,一般要先进行数据探索和数据预处理等工作。从通常公认的经验来说,数据预处理的工作一般会占...
2020-04-28 23:54:18 906
原创 Datawhale Pandas研习社 第三次打卡记录
Datawhale Pandas研习社 第三次打卡记录——分组分组学习体会pandas分组核心函数:groupby 相当于R语言tidyverse的group_by其目的都在于用某些变量的值(分类变量或数值变量)对数据进行分类,并衍生出一系列筛选、聚合、转换等其他操作,所以groupby分组的功能往往与其他功能合用,在进行统计汇总时十分有用。教程学习感受1、“小而精”还是“大而全“?...
2020-04-26 23:29:52 155
原创 Datawhale Pandas研习社 第二次打卡记录
Datawhale Pandas研习社 第二次打卡记录一、习题解答【练习】 现有一份关于口袋妖怪的数据集,请解决下列问题:(a)双属性的Pokemon占总体比例的多少?df['Type 2'].count()/df.shape[0](b)在所有种族值(Total)不小于580的Pokemon中,非神兽(Legendary=False)的比例为多少?df.query('Total >...
2020-04-23 23:39:27 253
原创 Datawhale Pandas研习社 第一次打卡记录
Datawhale Pandas研习社 第一次打卡记录一、习题解答【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:(a)在所有的数据中,一共出现了多少人物?(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?(c)以单词计数,谁说了最多的单词?【练习二】现有一份关于科比的投篮数据集,请解决如下问题:(a)哪种action_type和combined_shot_...
2020-04-20 23:13:51 440
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人