自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 支持向量机在风控竞赛数据集上的应用

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、支持向量机的参数与属性二、使用步骤1.导库并加载数据集2.使用SVM进行分类总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、支持向量机的参数与属性clf = SVC(C=1.0,#C是用来控制惩罚项的惩罚力度的系数。如果C大,模型会选择边际较

2021-10-09 22:47:54 345

原创 不同的核函数对支持向量机分类性能的影响

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、使用步骤画图显示前言关于理论部分,参看其他书本,这里演示支持向量机在非线性数据集上不可分,经过核函数变换后变成线性可分。一、使用步骤画图显示代码如下(示例):from sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.datasets import make_circlesfrom

2021-10-08 17:20:41 2058

原创 Sklearn的聚类算法以及聚类评价指标

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、参数解析二、使用步骤1.导入数据2.操作步骤总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、参数解析#最终结果会是基于Inertia(簇内平方和)来计算的n_init次连续运行后的最佳输出k = KMeans(n_clusters=4,#类

2021-10-07 17:40:34 1617

原创 网格法对随机森林调参

文章目录随机森林的参数一、使用步骤1.交叉验证进行尝试2.调参总结随机森林的参数# 当n足够大时,这个概率收敛于1-(1/e),约等于0.632。因此,会有约37%的训练数据被浪费掉,没有参与建模,# 这些数据被称为袋外数据(out of bag data,简写为oob)。除了我们最开始就划分好的测试集之外,这些数据也可# 以被用来作为集成算法的测试集。,在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外数据来测试我们的模型即可rf = RandomForestClassifie..

2021-10-06 12:13:18 1458

原创 网格搜索单颗决策树调参DecisionTreeClassifier

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、pandas是什么?二、使用步骤1.for循环来查找最优树的最大深度2.网格搜索总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?# 单棵树的的应用data = pd.read_csv(r'F:\教师培训\ppd7\df_

2021-10-06 08:43:23 2100

原创 数据集中异常值的处理之lof,iforest算法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、预定义的函数和数据二、具体实践1.z-score异常检测2.Local Outlier Factor3.孤立森林异常点检测总结前言异常点检测(Outlier detection),又称为离群点检测,是找出与预期对象的行为差异较大的对象的一个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点检测应用非常广泛信用卡反欺诈工业损毁检测广告点击反作弊刷好评,刷单检测羊毛党检测异常点(outlier)是一个

2021-10-04 21:07:34 1605

原创 不均衡样本处理

文章目录前言一、预定义数据和函数二、解决方案1.样本不均衡解决方案_代价敏感2.样本不均衡解决方案_过采样总结前言通常分类机器学习任务期望每种类别的样本是均衡的,即不同目标值样本的总量接近相同。在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。很多真实场景下,数据集往往是不平衡的,一些类别含有的数据要远远多于其他类的数据在风控场景下,负样本的占比要远远小于正样本的占比。因此如何处理不均衡样本的数据成为研究的焦点。一、预定义数据和函数data = pd.read_csv(..

2021-10-04 20:48:10 357

原创 PCA与SVD实践

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、PCA和SVD是什么?二、使用步骤1.引入库2.读入数据pca创造出新的特征,如果把新的特征加到原来的特征上模型会发生什么变化?总结前言常见的降维方法有提示:以下是本篇文章正文内容,下面案例可供参考一、PCA和SVD是什么?SVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解特征矩阵来进行降维,PCA和SVD是两种不同的降维算法,但他们都遵从上面的过程来实现降维,只是两种算法中矩阵分解的方法不

2021-10-04 14:36:51 265

原创 常用的特征选择方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录结论1、读数据,定义测试函数2、各种方法如下1.递归消除特征2.Embedded嵌入法3.相关性过滤之互信息法4.相关性过滤之F检验5.相关性过滤之F检验6.方差过滤总结结论过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。使用支持向量机时,优先使用递归消除特征。1、

2021-10-03 23:52:37 1224

原创 Boruta特征筛选

文章目录前言Boruta介绍1.读入数据2.利用筛选的特征进行建模总结前言Boruta介绍 - Boruta算法是一种特征选择方法,使用特征的重要性来选取特征网址:https://github.com/scikit-learn-contrib/boruta_py安装:pip install Boruta提示:以下是本篇文章正文内容1.读入数据代码如下(示例):import numpy as npfrom sklearn.ensemble import RandomForest

2021-10-03 16:36:42 4876 8

原创 toad库进行分箱操作

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、toad是什么?二、使用步骤1.初始的分箱结果2.调整后的分箱结果总结前言提示:以下是本篇文章正文内容,下面案例可供参考一、toad是什么?Toad 是专为工业界模型开发设计的Python工具包,特别针对评分卡的开发Toad 的功能覆盖了建模全流程,从 EDA、特征工程、特征筛选 到 模型验证和评分卡转化Toad 的主要功能极大简化了建模中最重要最费时的流程,即特征筛选和分箱。二、使用步骤1.初始的

2021-10-03 11:49:05 3283 3

原创 自定义分箱函数

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、分箱思路二、使用步骤1.引入库2.分箱代码实现3、计算各箱的WOE并映射到数据中4、toad库分箱5、评分卡制作前言提示:以下是本篇文章正文内容一、分箱思路算法思路二、使用步骤1.引入库代码如下(示例):import matplotlib.pyplot as pltimport scipy2.分箱代码实现代码如下(示例):def graphforbestbin(DF, X, Y, n=

2021-10-03 11:33:24 455

原创 数据挖掘竞赛lightgbm通过求最大auc调参

一、使用步骤0.首先展示最后的结果# 参数含义# learning_rate 一般设置在0.05-0.1之间# n_estimators 100-1000 boosting的迭代次数# min_split_gain 0 执行节点分裂的最小增益 不建议去调整# min_child_sample 一个叶子上的最小数据量,默认设置为20。根据数据量来确定,当数据量比较大时,应提升这个数值,# 让叶子节点的数据分布相对稳定。# min_child_weight 一个叶子上的最小hess

2021-10-02 16:12:13 2168

原创 风控模型大数据挖掘竞赛

一、数据集介绍该数据集中包含三个文件:LC.csv LP.csv LCIS.csvLC数据集为标的特征表,每只标一条记录。共有21个字段,包括一个主键、7个标本身的信息字段、13个成交时借款人的信息字段。LP数据集为标的还款计划和还款记录表。每只标每期还款一个记录。共有10个字段,包括2个主键,2个还款计划字段和4个还款状态字段。LCIS数据集包含了某一个客户投资的从2015年1月1日起成交的所有标,共36个字段。包含1个主键、7个标自身信息字段和13个成交当时借款人的信息字段以及15个客户投资与收益相

2021-09-29 21:04:09 474 1

原创 scrapy猫眼爬虫

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、要求二、使用步骤1.引入库2.maoyanspider.py3.items.py4.pipelines.py前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、要求二、使用步骤1.引入库代码如下(示例):import numpy as np

2021-06-28 14:34:47 240

原创 django-考核

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-06-28 14:28:05 87

原创 tensorflow2.0内存溢出解决办法

tensorflow2.0内存溢出解决办法一、tf CUDA_ERROR_OUT_OF_MEMORY: out of memory二、tf2.0physical_devices = tf.config.experimental.list_physical_devices('GPU')if len(physical_devices) > 0: for k in range(len(physical_devices)): tf.config.experimental.se

2021-05-30 09:48:31 1045

原创 传智播客爬虫

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、使用步骤1.引入库2.读入数据前言一、使用步骤1.引入库代码如下(示例):from selenium import webdriverfrom time import sleepimport osimport requests2.读入数据代码如下(示例):def get_urls(index1, index2): base_url = "https://new-bxgstorge.boxue

2021-05-24 17:22:07 251

原创 51job招聘数据python爬虫

1.引入库代码如下(示例):from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.wait import WebDrive

2021-05-14 10:49:57 299

原创 传智播客视频python视频爬虫

使用步骤1.引入库代码如下(示例):from selenium import webdriverfrom time import sleepimport osimport requests2.读入数据代码如下(示例):def get_urls(index1, index2): base_url = "https://new-bxgstorge.boxuegu.com/bxg/textbook/052/afterClassVideo/052" p=q='' if

2021-05-14 10:46:06 294

原创 爬王者荣耀动漫人物图片--python为例

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、数据爬取二、使用步骤1.引入库2.读入数据总结前言爬虫系列。提示:以下是本篇文章正文内容,下面案例可供参考一、数据爬取示例:二、使用步骤1.引入库代码如下(示例):import requestsfrom lxml import etreefrom selenium import webdriverimport osfrom selenium.webdriver.chrome.options im

2021-05-14 10:43:56 1050

原创 猫眼电影排行榜python爬虫

文章目录前言二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考二、使用步骤1.引入库代码如下(示例):import requestsfrom lxml import etreeimport re2.读入数据代码如下(示例):headers = { 'User-Agent':

2021-05-14 10:39:19 215

原创 利用python爬虫爬百度百聘招聘数据----利用Ajax的方式抓取

文章目录前言爬取步骤1.引入库2.代码如下总结前言爬取步骤1.引入库代码如下(示例):import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pqimport time2.代码如下base_url = 'https://zhaopin.baidu.com/api/qzasync?'headers = { 'Host':'zhaopin.baidu.com',

2021-05-14 10:18:21 223

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除