数据挖掘理论
文章平均质量分 97
weixin_50304531
这个作者很懒,什么都没留下…
展开
-
二元分类模型评估方法
根据分类模型和回归模型的不同,相应的评价标准也不尽相同,例如在分类模型中,就有以下 8 种不同的评价标准。原创 2023-11-17 11:21:25 · 1000 阅读 · 0 评论 -
决策树- 随机森林/GBDT/XGBoost
决策树 随机森林 GBDT XGBoost转载 2023-09-19 10:15:35 · 360 阅读 · 0 评论 -
WOE与IV值原理
WOE IV值原创 2022-11-10 14:55:44 · 415 阅读 · 0 评论 -
bagging和随机森林
接下来会介绍一些基于决策树的具有代表性的集成模型,如随机森林(RF),GBDT,XGBoost以及lightGBM。本章主要介绍随机森林(RandomForest,简写RF),RF是bagging集成模型的扩展变体,所以前面会简要介绍一些关于bagging的内容,后面会有专门的“集成学习”的章节来重点介绍bagging相关内容。...原创 2022-07-18 16:57:57 · 728 阅读 · 0 评论 -
机器学习算法 - 集成算法
集成算法、bagging、boosting、stacking、随机森林转载 2022-07-15 16:34:39 · 1667 阅读 · 0 评论 -
线性回归违背基本情况的假设-异方差、自相关、异常值
文章目录1 违背基本情况的假设-异方差1.1 异方差产生的原因1.3 异方差性的检验1.3.1 残差图分析法1.3.2 等级相关系数法(斯皮尔曼检验(Spearman))1.4 误差项的异方差问题解决方法1.4.1一元加权最小二乘估计(WLS)1.4.2 多元加权最小二乘法1 违背基本情况的假设-异方差 假定随机误差项 ε1,ε2,⋯ ,εn\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_nε1,ε2,⋯,εn 具有等方差,独立或不相关关系。即原创 2022-02-15 09:03:19 · 924 阅读 · 0 评论 -
随机森林调参 - python
由于采用了集成算法,本身精度比大多数单个算法要好,所以准确性高。在测试集上表现良好,由于两个随机性的引入,使得随机森林不容易陷入过拟合(样本随机,特征随机)。在工业上,由于两个随机性的引入,使得随机森林具有一定的抗噪声能力,对比其他算法具有一定优势。由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型。它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。原创 2021-03-04 17:49:54 · 4177 阅读 · 3 评论