python数据分析
文章平均质量分 69
sunnuan01
这个作者很懒,什么都没留下…
展开
-
支持向量机在风控竞赛数据集上的应用
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、支持向量机的参数与属性二、使用步骤1.导库并加载数据集2.使用SVM进行分类总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、支持向量机的参数与属性clf = SVC(C=1.0,#C是用来控制惩罚项的惩罚力度的系数。如果C大,模型会选择边际较原创 2021-10-09 22:47:54 · 330 阅读 · 0 评论 -
不同的核函数对支持向量机分类性能的影响
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、使用步骤画图显示前言关于理论部分,参看其他书本,这里演示支持向量机在非线性数据集上不可分,经过核函数变换后变成线性可分。一、使用步骤画图显示代码如下(示例):from sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import make_circlesfrom原创 2021-10-08 17:20:41 · 2018 阅读 · 0 评论 -
Sklearn的聚类算法以及聚类评价指标
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、参数解析二、使用步骤1.导入数据2.操作步骤总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、参数解析#最终结果会是基于Inertia(簇内平方和)来计算的n_init次连续运行后的最佳输出k = KMeans(n_clusters=4,#类原创 2021-10-07 17:40:34 · 1583 阅读 · 0 评论 -
网格法对随机森林调参
文章目录随机森林的参数一、使用步骤1.交叉验证进行尝试2.调参总结随机森林的参数# 当n足够大时,这个概率收敛于1-(1/e),约等于0.632。因此,会有约37%的训练数据被浪费掉,没有参与建模,# 这些数据被称为袋外数据(out of bag data,简写为oob)。除了我们最开始就划分好的测试集之外,这些数据也可# 以被用来作为集成算法的测试集。,在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外数据来测试我们的模型即可rf = RandomForestClassifie..原创 2021-10-06 12:13:18 · 1432 阅读 · 0 评论 -
网格搜索单颗决策树调参DecisionTreeClassifier
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.for循环来查找最优树的最大深度2.网格搜索总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?# 单棵树的的应用data = pd.read_csv(r'F:\教师培训\ppd7\df_原创 2021-10-06 08:43:23 · 2052 阅读 · 0 评论 -
数据集中异常值的处理之lof,iforest算法
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、预定义的函数和数据二、具体实践1.z-score异常检测2.Local Outlier Factor3.孤立森林异常点检测总结前言异常点检测(Outlier detection),又称为离群点检测,是找出与预期对象的行为差异较大的对象的一个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点检测应用非常广泛信用卡反欺诈工业损毁检测广告点击反作弊刷好评,刷单检测羊毛党检测异常点(outlier)是一个原创 2021-10-04 21:07:34 · 1566 阅读 · 0 评论 -
不均衡样本处理
文章目录前言一、预定义数据和函数二、解决方案1.样本不均衡解决方案_代价敏感2.样本不均衡解决方案_过采样总结前言通常分类机器学习任务期望每种类别的样本是均衡的,即不同目标值样本的总量接近相同。在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。很多真实场景下,数据集往往是不平衡的,一些类别含有的数据要远远多于其他类的数据在风控场景下,负样本的占比要远远小于正样本的占比。因此如何处理不均衡样本的数据成为研究的焦点。一、预定义数据和函数data = pd.read_csv(..原创 2021-10-04 20:48:10 · 342 阅读 · 0 评论 -
PCA与SVD实践
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、PCA和SVD是什么?二、使用步骤1.引入库2.读入数据pca创造出新的特征,如果把新的特征加到原来的特征上模型会发生什么变化?总结前言常见的降维方法有提示:以下是本篇文章正文内容,下面案例可供参考一、PCA和SVD是什么?SVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解特征矩阵来进行降维,PCA和SVD是两种不同的降维算法,但他们都遵从上面的过程来实现降维,只是两种算法中矩阵分解的方法不原创 2021-10-04 14:36:51 · 227 阅读 · 0 评论 -
常用的特征选择方法
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录结论1、读数据,定义测试函数2、各种方法如下1.递归消除特征2.Embedded嵌入法3.相关性过滤之互信息法4.相关性过滤之F检验5.相关性过滤之F检验6.方差过滤总结结论过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。使用支持向量机时,优先使用递归消除特征。1、原创 2021-10-03 23:52:37 · 1216 阅读 · 0 评论 -
Boruta特征筛选
文章目录前言Boruta介绍1.读入数据2.利用筛选的特征进行建模总结前言Boruta介绍 - Boruta算法是一种特征选择方法,使用特征的重要性来选取特征网址:https://github.com/scikit-learn-contrib/boruta_py安装:pip install Boruta提示:以下是本篇文章正文内容1.读入数据代码如下(示例):import numpy as npfrom sklearn.ensemble import RandomForest原创 2021-10-03 16:36:42 · 4734 阅读 · 8 评论 -
toad库进行分箱操作
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、toad是什么?二、使用步骤1.初始的分箱结果2.调整后的分箱结果总结前言提示:以下是本篇文章正文内容,下面案例可供参考一、toad是什么?Toad 是专为工业界模型开发设计的Python工具包,特别针对评分卡的开发Toad 的功能覆盖了建模全流程,从 EDA、特征工程、特征筛选 到 模型验证和评分卡转化Toad 的主要功能极大简化了建模中最重要最费时的流程,即特征筛选和分箱。二、使用步骤1.初始的原创 2021-10-03 11:49:05 · 3180 阅读 · 3 评论 -
自定义分箱函数
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、分箱思路二、使用步骤1.引入库2.分箱代码实现3、计算各箱的WOE并映射到数据中4、toad库分箱5、评分卡制作前言提示:以下是本篇文章正文内容一、分箱思路算法思路二、使用步骤1.引入库代码如下(示例):import matplotlib.pyplot as pltimport scipy2.分箱代码实现代码如下(示例):def graphforbestbin(DF, X, Y, n=原创 2021-10-03 11:33:24 · 447 阅读 · 0 评论 -
数据挖掘竞赛lightgbm通过求最大auc调参
一、使用步骤0.首先展示最后的结果# 参数含义# learning_rate 一般设置在0.05-0.1之间# n_estimators 100-1000 boosting的迭代次数# min_split_gain 0 执行节点分裂的最小增益 不建议去调整# min_child_sample 一个叶子上的最小数据量,默认设置为20。根据数据量来确定,当数据量比较大时,应提升这个数值,# 让叶子节点的数据分布相对稳定。# min_child_weight 一个叶子上的最小hess原创 2021-10-02 16:12:13 · 2080 阅读 · 0 评论 -
风控模型大数据挖掘竞赛
一、数据集介绍该数据集中包含三个文件:LC.csv LP.csv LCIS.csvLC数据集为标的特征表,每只标一条记录。共有21个字段,包括一个主键、7个标本身的信息字段、13个成交时借款人的信息字段。LP数据集为标的还款计划和还款记录表。每只标每期还款一个记录。共有10个字段,包括2个主键,2个还款计划字段和4个还款状态字段。LCIS数据集包含了某一个客户投资的从2015年1月1日起成交的所有标,共36个字段。包含1个主键、7个标自身信息字段和13个成交当时借款人的信息字段以及15个客户投资与收益相原创 2021-09-29 21:04:09 · 454 阅读 · 1 评论