机器学习
文章平均质量分 73
戎梓漩
这个作者很懒,什么都没留下…
展开
-
无监督学习——层次聚类详情
层次聚类的定义、实现方法,以及实现工具。原创 2022-06-01 17:33:59 · 2101 阅读 · 0 评论 -
lightGBM介绍,以及xgboost与lightGBM的区别
一、lightGBM二、区别原创 2021-09-13 20:51:36 · 3843 阅读 · 0 评论 -
决策树(ID3、C4.5与CART)——从信息增益、信息增益率到基尼系数
一、决策树决策树一个分类算法,属于有监督学习。决策树的生成有两个要点:1、节点特征的选择2、节点分裂值的选择。二、区别1、ID3与C4.5采用信息熵作为选择的基础,CART选择基尼纯度作为选择的基础。2、ID3和C4.5只用于分类,CART可以用于分类与回归。其中I3、ID3和C4.5可以是多叉树,CART是二叉树。4、ID3只能使用离散特征,C4.5和CART可以处理连续特征。5、ID3不能处理缺失值,C4.5可以处理缺失值。三、ID31、信息熵信息熵用来衡量数据集的混乱程度(纯原创 2021-09-04 19:07:43 · 8345 阅读 · 0 评论 -
K-means、手肘法与K-means优化(K-means++、elkan-means、mini batch k-means)
一、k-means1、简介k-means是一个简单常用的聚类方法,属于无监督学习。通过给定的超参数k,将数据集分成k个簇。k值的选取可以通过交叉验证的方式,多次测试取最优值。示例:k = 3假设有k个簇,C1、C2、…Ck。簇Ci的均值向量,称为质心或者簇心,表示为:于是我们的目标可以设为,使所有簇内数据到它对应的簇心的距离最小:求E的最小值是一个NP难问题,于是采用迭代方法直到质心收敛。2、步骤由于k-means算法的计算依赖于距离,所以在聚类前要进行归一化处理k-means原创 2021-09-01 19:04:35 · 7358 阅读 · 3 评论 -
xgboost的公式推导,以及xgboost与GBDT的区别
XGBoost, LightGBM, CatBoost, NGBoost实际上是对GBDT方法的不同实现,针对同一目标、做了不同的优化处理。一、GBDT二、xgboostxgboost的基学习器采用CART回归树目标函数=损失函数 + 正则化项 正则化项用于控制树的复杂度,防止过拟合,使得模型更简化,也使得最终的模型的预测结果更稳定。其中,...原创 2021-08-31 21:32:13 · 788 阅读 · 0 评论 -
bagging与boosting的区别
bagging把数据集通过有放回的抽样方式,划分为多个数据集,分别训练多个模型。针对分类问题,按照少数服从多数原则进行投票,针对回归问题,求多个测试结果的平均值boosting与Bagging一样,使用的相同的弱学习器,不过是以自适应的方法顺序地学习这些弱学习器,即每个新学习器都依赖于前面的模型,并按照某种确定性的策略将它们组合起来两个重要的 Boosting 算法:AdaBoost(自适应提升)和Gradient Boosting(梯度提升)AdaBoost,使用前面的学习器用简单的模型去适配数原创 2021-08-31 19:40:16 · 13474 阅读 · 0 评论 -
欠拟合与过拟合
一、欠拟合解决方法:1、增加模型参数量(增加问题描述能力)2、增加非线性功能二、过拟合解决方法:1、数据集增广2、正则化3、early stop(早停)4、dropout5、Inception结构原创 2021-08-28 11:56:54 · 86 阅读 · 0 评论