机器学习算法
yaoqsm
这个作者很懒,什么都没留下…
展开
-
GBDT
这一篇记录一下目前比较常用的集成算法GBDT。集成算法从根上来看,主要分为两大类--boosting和bagging。先说bagging,他的思想是建立多个弱学习期,最后的结果进行投票决定,而且每个弱学习器的训练样本都是在总样本中随机抽样的,这个算法是并行的,每个弱学习器是一起运算的。而boosting算法,其原理是在上一个弱学习器的基础上,构建下一个弱学习器,也就是根据上一个弱学习器的结果,对样原创 2017-10-18 10:07:55 · 697 阅读 · 0 评论 -
GANs生成对抗网络知识点初探
纳什平衡纳什平衡是在GANs中提到的一种对结果衡量的标准,由于生成对抗网络的结果是接近与0.5的,解释一下:结果大于0.5表明生成网络生成的样本接近于真实样本,小于0.5则说明样本是假的,GANs的结果一般是在0.5附近。而其极限的情况则是等于0.5,也就是说判别网络判别不出来了,这时候就被称为纳什平衡。原创 2017-10-10 19:52:31 · 508 阅读 · 0 评论 -
对ROC和KS曲线的理解
先上图ROC曲线是评判一个模型好坏的标准,有两个值要知道,FPR(假正率)和TPR(真正率),ROC曲线就是以这两个值为坐标轴画的。比如逻辑回归得到的结果是概率,那么就要取阈值来划分正负,这时候,每划一个阈值,就会产生一组FPR和TPR的值,然后把这组值画成坐标轴上的一个点,这样,当选取多组阈值后,就形成了ROC曲线(每次选取一个不同的阈值,我们就可以得到一组FPR和TPR,即ROC曲原创 2017-10-24 21:24:51 · 21495 阅读 · 0 评论 -
对梯度下降原理的理解
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂转载 2017-10-17 13:44:26 · 1126 阅读 · 0 评论 -
GBDT+LR
# 弱分类器的数目n_estimator = 10# 随机生成分类数据。X, y = make_classification(n_samples=80000) # 切分为测试集和训练集,比例0.5X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)# 将训练集切分为两部分,一部分用于训练GBD转载 2017-12-19 15:43:51 · 490 阅读 · 0 评论 -
决策树
C4.5算法可以用R语言的Rweka包中的J48函数来实现,但是此函数参数较多。rpart包是用来实现cart决策树的。原创 2018-07-14 15:07:46 · 220 阅读 · 0 评论 -
对ctree(条件推断决策树)的个人理解
个人的一些理解,不一定对。首先对因变量和单个自变量进行卡方检验,计算出因变量与所有自变量的卡方值,选择p值小于阈值(如0.05,一般小样本和中等样本都为0.05)的自变量进入模型,这时已经确定好那些自变量进入模型,下一步就是选择哪个zi自变量作为第一次分割的自变量,方法:在进入模型的自变量中,选择与因变量的相关性最高的那个自变量作为第一次分割的自变量。那么,怎么来划分呢,就是用置换检验来确定。置换...原创 2018-12-03 13:48:43 · 5659 阅读 · 1 评论 -
WOE转化的意义
之前一直在网上搜为什么在做评分卡的时候,要把bian变量转化为WOE,现在找到一定的原因,记录一下。先说结论:转化为WOE后,WOE值与对应的违约率是呈单调相反的关系。即WOE值越高,其违约率越低。对应的违约率:该箱内,该箱坏样本占该箱总样本的比例。因为没有转化前,违约率与变量的箱shi是没有太大关系的。上图很明显,cutpoint与badrate是没有线性关系的,而w...原创 2019-01-25 14:37:17 · 5969 阅读 · 0 评论 -
模型融合---Stacking&Blending
模型融合是指通过分层对模型进行集成,比如以两层为例,第一层为基学习器,使用原始训练集训练基学习器,每个基学习器的输出生成新的特征,作为第二层模型的输入,这样就生成了新的训练集;第二层模型在新的训练集上再进行训练,从而得到融合的模型。Stacking Stacking是模型融合的常用方法,重点是在第一层中,如何用基学习器生成新特征,包含训练数据集的新特征和测试数据集的新特征。1...转载 2019-07-01 17:33:56 · 1276 阅读 · 1 评论