![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 76
机器学习
少年阿文
这个作者很懒,什么都没留下…
展开
-
lightgbm直方图算法的个人理解
参考[https://blog.csdn.net/anshuai_aw1/article/details/83040541]lightgbm的一大优化是直方图算法,下面介绍下直方图算法的流程。流程在对节点进行训练的过程中,需要将特征值转化为bin_value,在该过程中的bin_value保持不变。整个训练分为4步:对每个节点遍历所有特征;对节点遍历所有特征,为每个特征构建直方图,每个直方图中应该保存该直方图中样本的梯度和和样本数;遍历所有特征,将梯度和和样本数统计进入直方图中;对特征遍原创 2020-12-06 16:07:46 · 1315 阅读 · 2 评论 -
对ROC的个人理解
在模型中经常用到ROC,那么ROC的横纵坐标是什么?为什么使用这两个?使用ROC的好处到底是什么?一直困扰我,简单写下当前的理解。ROC的横坐标的假正率,即FPR= FP/(FP+TN),纵坐标为真正率TPR = TP/(TP+FN).重点在于这个横纵坐标。图的画法可找相关文章,通过作图的过程,实际上是将数据划分为两块,即预测为正的一块和预测为负的一块,纵坐标主要衡量的是上面那一块的,得到的是正样本中有多少正预测对了,横坐标衡量下面那一块,那么在实际数据中,即使样本量翻倍了,也不会影响这个值,比方说正原创 2020-11-11 00:44:29 · 671 阅读 · 0 评论 -
lightgbm的优化
lightgbm是xgboost的优化版本,它的优点在于:更小内存;速度更快;更高的准确率;更大的数据集;更小的内存消耗。下面简单阐述下我对其中几点优化的理解。lightgbm相较于xgboost有以下几点改进:基于直方图的决策树算法;基于leaf_wise的叶子生长策略;利用直方图做差能够直接处理类别变量cache命中优化多线程优化a. 直方图算法lightgbm的直方图算法是将连续型变量离散化成k个直方图的形式,完成指标的离散化,将离散化后的值作为索引得到相应的统计量,然后根据原创 2020-11-11 00:31:18 · 1159 阅读 · 0 评论 -
xgboost常见问题
xgboost整体流程怎么样?xgb是基于gbdt的工程化实现,也是个加法模型,每棵树拟合之前行程的残差,最后由残差叠加得到最终的拟合结果。目标函数由训练损失和正则化构成,采用泰勒二次展开作为损失函数的近似。XGBoost和GBDT的不同点:不同点在于基函数(xgb支持线性分类器,gbdt只能用cart)、缺失值处理、正则化、二次导数、列抽样、样本抽样、并行计算这几点来回答XGBoost的并行是怎么做的?xgboost本身还是树的串行,所以在树的维度上是不能并行。xgb的并行是指特征维度的原创 2020-10-25 18:01:53 · 734 阅读 · 0 评论 -
xgb\lightgbm\gbdt\rf模型如何挑选之个人思考
这四类模型均为有监督模型,都具有标签,整体思路:具体选择哪一类,不能一概而论,需要结合具体的业务情况、数据情况、评价标准、资源、时间要求、特征解释性等综合衡量,同时需要清除各个模型的原理、优势劣势、区别做决定。了解数据:1.统计描述和可视化统计描述:均值、分位数、标准差、相关性、缺失率、异常点可视化:箱线图(异常点)、密度图、直方图、散点图、选取这几类算法,结合着几类算法的特点,说明几点信息:1.数据是带标签的2.预测分类问题3.对模型可解释性要求不高4.对准确性要求较高模型复杂度模原创 2020-07-13 10:02:56 · 281 阅读 · 0 评论