自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

now

小白

  • 博客(24)
  • 收藏
  • 关注

转载 模型融合

Task5 模型融合Tip:此部分为零基础入门金融风控的 Task5 模型融合部分,欢迎大家后续多多交流。赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测5.1 学习目标将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)5.2 内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,.

2021-04-25 20:28:37 116

转载 模型对比与性能评估

模型对比与性能评估4.4.1 逻辑回归 优点 训练速度较快,分类的时候,计算量仅仅只和特征的数目相关; 简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响; 适合二分类问题,不需要缩放输入特征; 内存资源占用小,只需要存储各个维度的特征值; 缺点 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】; 不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的; 对多重

2021-04-25 19:53:43 1231

转载 集成模型

集成模型集成方法(ensemble method)通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好。集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的

2021-04-25 18:57:07 2076

转载 warnings.filterwarnings(“ignore“)

在python中运行代码经常会遇到的情况是——代码可以正常运行但是会提示警告,有时特别讨厌。那么如何来控制警告输出呢?其实很简单,python通过调用warnings模块中定义的warn()函数来发出警告。我们可以通过警告过滤器进行控制是否发出警告消息。import warningswarnings.filterwarnings('ignore')...

2021-04-24 11:20:34 608

转载 log_loss对数损失函数(Logarithmic Loss Function)的原理和 Python 实现

官方文档https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html原理  对数损失, 即对数似然损失(Log-likelihood Loss), 也称逻辑斯谛回归损失(Logistic Loss)或交叉熵损失(cross-entropy Loss), 是在概率估计上定义的.它常用于(multi-nominal, 多项)逻辑斯谛回归和神经网络,以及一些期望极大算法的变体. 可用于评估分类器的概率输出.

2021-04-24 11:13:17 8095 1

转载 StratifiedKFold 和 KFold 的比较

将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个自己有m/k个训练样例,相应的子集为{s1,s2,...,sk} 每次从分好的子集里面,拿出一个作为测试集,其他k-1个作为训练集 在k-1个训练集上训练出学习器模型,把这个模型放到测试集上,得到分类率的平均值,作为该模型或者假设函数的真实分类率StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同Parametersn_splits : int

2021-04-24 11:02:07 912

原创 AUC PR曲线 学习曲线

AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。其中,ROC曲线全称为受试者工作特征曲线 (receiver operating characteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。AUC就是衡量学习器优劣的一种性能指标

2021-04-23 15:22:09 4201

转载 面试问题之 python中的闭包函数是什么

问:请简单描述下什么是闭包函数???答: 闭包函数必须包含以下三个特性: 其一: 函数中必须嵌套一个函数 其二:外层函数的返回值必须是内层函数的函数名 其三: 内层嵌套函数对外层的作用域有非全局变量的引用。 简单来说闭包函数在第二个时候返回的不仅仅是一个简单的函数,这个函数还携带了一个封闭式的作用域,代码举例:def func(): 其一 函数中必须嵌套一个函数 name = 'python' def inner():...

2021-04-23 14:36:36 101

转载 python装饰器和语法糖

https://www.cnblogs.com/sweet-i/p/11177063.html#1.函数变量def fun(): print('hello')#函数调用fun() #hello#打印函数变量print(fun)#<function fun at 0x000001F09EB35160>#2.嵌套函数--一个函数里面包含另一函数的定义def func1(): def func2(): print('hello')func1(.

2021-04-23 14:35:45 63

原创 UNION与UNION ALL

4.1.2 表的加法--UNION于同一个表的两个不同的筛选结果集, 使用 UNION 对两个结果集取并集, 和把两个子查询的筛选条件用 OR 谓词连接, 会得到相同的结果,但倘若要将两个不同的表中的结果合并在一起, 就不得不使用 UNION 了,而且, 即便是对于同一张表, 有时也会出于查询效率方面的因素来使用 UNION.包含重复行的集合运算 UNION ALLUNION 会对两个查询的结果集进行合并和去重, 这种去重不仅会去掉两个结果集相互重复的, 还会去掉一个结果集中的重复...

2021-04-23 10:41:43 382

转载 浅谈C++中指针和引用的区别

1.什么是指针int *p = &a; //&:取地址此时 *p = 10; // 因为p存储的是a的地址,所以p指向a,2.什么是引用引用是C++语言对C语言的一个重要补充,而C语言中是不包含“引用”的。引用”; 它的作用是为变量起一个别名。引用和变量绑定在一起,对引用的操作与对其所绑定的变量或对象的操作完全等价。引用和变量是同一个地址,因此引用不分配内存地址,必须初始化,不能为空,且一旦初始化,引用的值不能改变,引用的内容可以改变。int a = 10;int

2021-04-22 13:55:06 285

转载 SQL执行顺序与SQL中的where与having区别

SQL执行顺序:from->where->groupby->having->select->orderby->limitsql中where和having的区别用的地方不一样where可以用于select、update、delete和insert into values(select * from table where ..)语句中。having只能用于select语句中执行的顺序不一样where的搜索...

2021-04-20 09:24:49 1083

原创 Python3 CookBook

https://www.kancloud.cn/kancloud/python3-cookbook/47187

2021-04-19 14:24:18 128

原创 MySQL 日期函数

表 Weather+---------------+---------+| Column Name | Type |+---------------+---------+| id | int || recordDate | date || temperature | int |+---------------+---------+id 是这个表的主键该表包含特定日期的温度信息编写一个 SQL 查询,来查找与之前(昨...

2021-04-18 15:06:42 1417

转载 机器学习之混淆矩阵

今天我们来说下分类情况下常用的一个指标:混淆矩阵。那什么是混淆矩阵呢?其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表格中我们可以清楚看到每个类别正确识别的数量和错误识别的数量。那么混淆矩阵在什么情况下最能直观看到其优势呢?答案是类别不平衡时。我们下面来先看个例子:我们看下这个识别的准确率=0.8,哇,准确率不低呀,都80分了,挺好的啊!!!但是我们看下预测结果,全部是0,一个1就没有,这就尴尬了~~~这是因为我们的真实类别有80%是0类,所以把所有类别都设置

2021-04-17 17:33:13 1216

转载 SelectKBest特征选择--选择前K个得分高的特征值

在sklearn中特征选择函数SelectKBestfrom sklearn.feature_selection import SelectKBest调用方式#skb = SelectKBest(chi2, k=3) ## 只考虑3个维度#X1_train = skb.fit_transform(X1_train, Y1_train) ## 训练模型及特征选择参数1、score_func : callable,函数取两个数组X和y,返回一对数组(scores, pvalues)或一个分数

2021-04-15 19:11:27 10100

原创 Every derived table must have its own alias(sql语句错误解决方法)

2021-04-15 14:33:20 380

转载 绘制学习曲线——plot_learning_curve

plot_learning_curve函数官方放提供的模板函数,可以无需修改,初学时我们仅需要知道传入的参数意义即可。先说说函数里面的一个东西,也是画曲线的核心sklearn.model_selection的learning_curve,该学习曲线函数返回的是train_sizes,train_scores,test_scores: 在画训练集的曲线时:横轴为 train_sizes,纵轴为 train_scores_mean; 画测试集的曲线时:横轴为train_sizes,纵轴为...

2021-04-13 17:00:35 3511 1

转载 python map函数

map()函数map()是 Python 内置的高阶函数,它接收一个函数 f 和一个 list,并通过把函数 f 依次作用在 list 的每个元素上,得到一个新的 list 并返回。例如,对于list [1, 2, 3, 4, 5, 6, 7, 8, 9]如果希望把list的每个元素都作平方,就可以用map()函数:因此,我们只需要传入函数f(x)=x*x,就可以利用map()函数完成这个计算:def f(x): return x*xprint map(f, [1, 2, 3

2021-04-11 20:34:53 210

转载 python apply函数

  1、介绍 apply函数是pandas里面所有函数中自由度最高的函数。该函数如下: DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds) 该函数最有用的是第一个参数,这个参数是函数,相当于C/C++的函数指针。 这个函数需要自己实现,函数的传入参数根据axis来定,比如axis = 1,就会把一行数据作为Series的数据 结构传入给自己实现的函数中,我们在函数中

2021-04-11 20:32:16 342

转载 SQL窗口函数

​一.窗口函数有什么用?在日常工作中,经常会遇到需要在每组内排名,比如下面的业务需求:排名问题:每个部门按业绩来排名topN问题:找出每个部门排名前N的员工进行奖励面对这类需求,就需要使用sql的高级功能窗口函数了。二.什么是窗口函数?窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数的基本语法如下:<窗口函数> over (partition by <用于分组的列名>

2021-04-08 21:51:10 95

转载 Excel二维表转换成一维表(2种方法)

http://www.360doc.com/content/17/0131/15/30583536_625616303.shtml

2021-04-08 20:11:58 1007

原创 常用的数据分析方法

一、数据的分类二、统计分析流程三、数据分析的误区1.展示元素不宜大于3个2.时间序列数据最好使用折线图,而不宜使用柱状图3.研究数据最好不适用三维立体图4.为避免图表的欺骗性,图线最好占据2/3至3/4的高度(调整Y轴刻度)四、常用的统计抽样方法主要有三种:4.1随机抽样法总体中每个个体都有同等可能被抽到,常用抽签或随机表来保证样品的代表性-----当个体的种类不多时,样本总数较少,且抽取的样本数较少,随机抽样是一种有效的抽样方法4.2分层抽样法先将.

2021-04-04 16:36:25 2240

原创 python学习--基础语法及函数

Python发展历史: https://baike.baidu.com/item/Python/407313?fr=aladdin变量程序中,数据都是临时存储在内存中,为了更快速的查找或使用这个数据,通常我们把这个数据在内存中存储之后定义一个名称,这个名称就是变量。二、定义变量2.1标识符2.2命名习惯见名知义。大驼峰:即每个单词首字母都大写,例如︰MyName 。小驼峰:第二个(含)以后的单词首字母大写,例...

2021-04-01 17:36:54 586 2

IBankWizSetup.exe

IBankWizSetup.exe

2022-10-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除