Howedata-CSDN博客

原创熵权法及其实现（R、Python、Matlab、Excel）

熵权法及其实现matalb【评价算法】01. 熵权法确定权重https://zhuanlan.zhihu.com/p/28067337R【R语言】熵权法确定权重https://zhuanlan.zhihu.com/p/115411437Python综合评价方法熵权法】指标权重确定方法之熵权法https://blog.csdn.net/u013421629/article/details/81221559?utm_medium=distribute.pc_relevant.none-

2020-10-20 14:11:47 3352

原创基于Python的信用评分卡模型分析

发现一个基于Python构建信用评分卡模型的小项目，步骤非常清晰。这里分享给大家做个参考。基于Python的信用评分卡模型分析（一）一、项目流程二、数据获取三、数据预处理3.1 缺失值处理3.2 异常值处理3.3 数据切分四、探索性分析五、变量选择5.1 分箱处理5.2 WOE5.3 相关性分析和IV筛选如果不理解woe和IV，请看这篇，介绍的非常通俗易懂。数据挖掘模型中的IV和WOE详解基于Python的信用评分卡模型分析（二）六、模型分析6.1 WOE转换6.2

2020-07-29 19:10:21 456 1

原创逻辑回归建模及变量重要性可视化（Python实现）

一、逻辑回归背景知识逻辑回归（Logistic Regression）是最常用的分类算法之一，因其简单直观可解释而广受欢迎。它来源于统计学中的广义线性模型（GLM），也是机器学习领域的基本算法。因本文重在分享对模型变量重要性的可视化，故在这里不对模型原理做过多说明。感兴趣的读者可以参考以下两篇文章。对于模型的思想、推导等步骤，可以参考以下文章。Logistic Regression(逻辑回归)详细讲解https://blog.csdn.net/joshly/article/details/50

2020-07-19 00:02:13 17040 13

原创基于R语言的机器学习多分类任务（决策树、随机森林、朴素贝叶斯、支持向量机、KNN、BP神经网络）——UCL胎心宫缩监护数据（CTG.xls）预测分析

UCL胎心宫缩监护数据（CTG.xls）预测分析——基于R语言的机器学习分类（决策树、随机森林、朴素贝叶斯、支持向量机、KNN、BP神经网络模）摘要：本文针对UCL胎心宫缩监数据（Y有三个水平的多分类预测任务），利用R语言建立决策树、随机森林、朴素贝叶斯、支持向量机、KNN和BP神经网络模型进行预测。给出了任务（包括数据预处理（缺失值处理、异常值处理）、建模、模型评价等步骤）的详细代码，读者稍加改动便可运用到自己的机器学习分类任务中。一、数据来源与说明胎心宫缩监护（CTG.xls）来源于UCL机器

2020-07-15 13:36:41 10137 8

原创综合练习（下）

第一题

2020-07-01 23:29:26 187

原创 pandas分类数据思维导图

pandas分类数据

2020-06-27 23:12:48 214

原创 pandas文本数据处理常用方法思维导图

文本数据处理今天做论文作业要交，先占个坑，过会补齐

2020-06-26 22:47:26 198

原创 Pandas中缺失值的相关概念与处理方法总结

本篇总结了Pandas中缺失值的相关概念、原理及处理方法，有助于学习者搭建系统框架，对于一些具体操作并未详细说明。请配合Datewhale社区的Joyful Pandas教材或者其他Pandas教材练习相关函数的具体操作，效果更佳。

2020-06-23 22:30:58 1039

原创 Datawhale Pandas研习社第六次综合练习打卡

Datawhale Pandas研习社第六次综合练习打卡学习感受转眼间教程的上半程就要结束了，时间过得飞快。在读研以后，愈发觉得学校能学到的真的很少（可能因为学校菜或者我菜，手动狗头），真正有用的都是自己学的！因为以后想从事数据分析相关工作，当然也因为对机器学习的兴趣，这就是我学习Python的原动力。说回教程，这份教程真的很详细，而且精准，所以以后会将它作为一份复习书或者工具字典来查。个...

2020-05-01 23:55:31 213

原创数据合并概念与pandas/dplyr函数总结

数据合并概念与pandas/dplyr函数总结Datawhale Pandas研习社第五次打卡记录——合并一、pandas数据合并知识结构思维导图二、关于数据合并——连接数据合并，从概念上讲，就是把异源或者异构的数据进行合并。如果一个数据集的数据量变的比原来大了，那么它一定合并了其他的数据集。从数据集的连接方式上说，主要可以分为内连接和外连接两大种，主要方式可以总结为下图。其实SQL...

2020-04-30 23:54:15 686

原创数据变形概念与pandas应用

Datawhale Pandas研习社第四次打卡记录——变形一、主要知识点总结二、数据清洗之数据变形为什么要进行数据变形？一般来说，无论人工还是传感器采集的数据，都或多或少存在一些错误或者瑕疵，可能有数据重复或者不准确，导致数据存在很多默认值、缺失值、异常值等，因此我们拿到的数据往往无法直接进行分析，一般要先进行数据探索和数据预处理等工作。从通常公认的经验来说，数据预处理的工作一般会占...

2020-04-28 23:54:18 906

原创 Datawhale Pandas研习社第三次打卡记录

Datawhale Pandas研习社第三次打卡记录——分组分组学习体会pandas分组核心函数：groupby 相当于R语言tidyverse的group_by其目的都在于用某些变量的值（分类变量或数值变量）对数据进行分类，并衍生出一系列筛选、聚合、转换等其他操作，所以groupby分组的功能往往与其他功能合用，在进行统计汇总时十分有用。教程学习感受1、“小而精”还是“大而全“？...

2020-04-26 23:29:52 155

原创 Datawhale Pandas研习社第二次打卡记录

Datawhale Pandas研习社第二次打卡记录一、习题解答【练习】现有一份关于口袋妖怪的数据集，请解决下列问题：（a）双属性的Pokemon占总体比例的多少？df['Type 2'].count()/df.shape[0]（b）在所有种族值（Total）不小于580的Pokemon中，非神兽（Legendary=False）的比例为多少？df.query('Total &gt...

2020-04-23 23:39:27 253

原创 Datawhale Pandas研习社第一次打卡记录

Datawhale Pandas研习社第一次打卡记录一、习题解答【练习一】现有一份关于美剧《权力的游戏》剧本的数据集，请解决以下问题：（a）在所有的数据中，一共出现了多少人物？（b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？（c）以单词计数，谁说了最多的单词？【练习二】现有一份关于科比的投篮数据集，请解决如下问题：（a）哪种action_type和combined_shot_...

2020-04-20 23:13:51 440

weixin_45494886的博客