![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 70
杬豆枷
大数据爱好者
展开
-
GBDT、XGboost
1.GBDT的基本原理是什么?采用决策树作为弱分类器的Gradient Boosting算法被称为GBDT梯度提升决策树(Gradient Boosting Decision Tree,GBDT)其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。开始训练第一棵树,训练的过程跟传统决策树相同,训练好第一棵树后,求得每个样本预测值与真实值之间的残差。用每个样本的残差训练下一棵树,直到残差收敛到某个阈值以下,或者树的总数达到某个上限为止原创 2021-03-25 21:02:20 · 176 阅读 · 0 评论 -
百面A/B测试
1.在对模型进行过充分的离线评估之后,为什么还要进行在线A/B测试?(1)离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果。(2)离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不考虑线上环境的延迟、数据丢失、标签数据缺失等情况。因此,离线评估的结果是理想工程环境下的结果。(3)线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。比如,上线了新的推荐算法,离线评估往往关原创 2021-03-25 15:31:48 · 124 阅读 · 0 评论 -
百面3距离
1为什么在一些场景中要使用余弦相似度而不是欧氏距离?对于两个向量A和B,其余弦相似度定义为即两个向量夹角的余弦,关注的是向量之间的角度关系,并不关心它们的绝对大小,其取值范围是[−1,1]。当一对文本相似度的长度差距很大、但内容相近时,如果使用词频或词向量作为特征,它们在特征空间中的的欧氏距离通常很大;而如果使用余弦相似度的话,它们之间的夹角可能很小,因而相似度高。此外,在文本、图像、视频等领域,研究的对象的特征维度往往很高,余弦相似度在高维情况下依然保持“相同时为1,正交时为0,相反时为−1”的性质,原创 2021-03-25 15:16:00 · 141 阅读 · 0 评论 -
百面2模型评估
1,准确率的局限性。准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。奢侈品广告主们希望把广告定向投放给奢侈品用户,虽然模型的整体分类准确率高,但是不代表对奢侈品用户的分类准确率也很高。为了解决这个问题,可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。2,精确率与召回率的权衡。p42搜索原创 2021-03-25 14:57:21 · 86 阅读 · 0 评论 -
百面1特征工程
1为什么需要对数值类型的特征做归一化?线性函数归一化( Min-Max Scaling )零均值归一化( Z-Score Normalization)在学习速率相同的情况下,x1的更新速度会大于x2,需要较多的迭代才能找到最优解。如果将x1和x2归一化到相同的数值区间后,优化目标的等值图会变成圆形,x1和x2的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适原创 2021-03-25 13:58:15 · 142 阅读 · 0 评论 -
集成学习 Bagging和Boosting的区别与联系
1,BaggingBagging即套袋法,其算法过程如下:1,从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法(有放回)抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)2,每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)3,对分类问题:将上步得到的k个原创 2021-03-22 21:45:49 · 1269 阅读 · 0 评论 -
算法整理模板01
STEP1:整体概况决策树是一种对样本进行分类的树形结构,也能够进行回归预测。决策树主要包含3种结点:根节点——初始结点;叶节点——最终分类结果结点;内结点——树内部进行判断的条件结点-即特征,在决策树中,每一个样本都只会被一条路径覆盖。STEP2:生成原理决策树常见的生成算法有三种,ID3,C4.5以及Cart。以ID3算法为例介绍一下决策树的生成原理。第一步,计算信息增益。ID3算法是利用信息增益进行特征选择的。信息增益是指,已知某一特征xi后,使得样本整体特征不确定性减少的程度。第二步,在每原创 2021-03-18 12:36:27 · 93 阅读 · 0 评论