一句话概括 —— ML(机器学习)

聚类算法:

        无监督学习算法,根据样本之间的相似度将样本分为多个类别。K-Means简单易懂易于实现,但也与生俱来有一些明显的缺陷,比如算法依赖K值的选择、初始点的选择、样本的分布,以及对异常值非常敏感、在大样本数据集上性能较差。K-means的损失函数是求所有数据点与所在簇的中心点的距离之和

逻辑回归:

        是一种广义的线性回归模型,主要用于数据挖掘、疾病自动诊断、经济预测等。常用于二分类场景,通过sigmoid来把输出结果映射为0-1的概率值

        逻辑回归的优势最为突出的两点就是其模型简单模型的可解释性强

朴素贝叶斯:

        是基于贝叶斯定理与特征条件独立假设的分类方法,特点是结合先验假设

和后验概率的,避免出现了先验概率的主观偏见,也避免了单独使用样本信息的过拟合

SVM支持向量机:

        是一种按监督学习的方式来对数据进行二元分类的广义线性分类器,是N维空间的分类超平面,他将空间切分成两部分,对于二维空间的话,他是一条线,对于三维空间的话,他是一个平面,对于更高维空间,他是超平面

KNN近邻算法:

         k近邻分类算法是数据挖掘分类计算中最简单的方法之一。K近邻就是k个最近的邻居的意思,每个样本都可以用它最接近的k个近邻值来代表。就是你距离那个邻居近,那么你大概率也属于这个邻居的类

logistic 回归:

        是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。Sigmoid

        为什么用交叉熵而不用欧式距离做损失函数:欧式距离不是凸函数;交叉熵是凸函数;凸函数问题求解方便。

决策树:

        是一种树形结构,本质是一颗由多个判断结点组成的数,可以解决分类问题和回归问题。结点挂的样本类别都是同一个类别的、或者结点只有一个样本的时候才算决策树构建完毕

随机森林:

        是一个包含多个决策树的分类器,训练多个弱学习器集成在一块来进行预测,多个弱学习器来进行平权投票,得到最终的结果。但是如果出现过拟合的话容易出现互相遏制

XGBOOST

        极端梯度提升树,在树深为0的时候开始分裂,每次分裂后形成两个叶子结点,新分裂一个结点后,需要检测这次分裂是否会给损失函数带来增益,当树深度到最大深度时会停止分裂,但是深度值设置过大的时候会造成树分的太细,造成过拟合。核心思想:在GBDT的基础上,目标函数增加了正则化项,并且在求解时做了二阶泰勒展开

Adaboost:

        是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)

GBDT:

        是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。是回归树(不是分类树),GBDT用来做回归预测。核心思想:用加法模拟,更准确的说,是多棵决策树来拟合一个目标函数。每一棵决策树拟合的是之前迭代得到的模型的残差。求解时,对目标函数使用一阶泰勒展开,用梯度下降法训练决策树。

信息增益:

        信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好

ID3、C4.5、CART(基尼指数)、Adaboost、GBDT、XGBoost区别和联系

        1. ID3、C4.5(信息增益、信息增益率):使用多叉树,树过于简单,容易过拟合

        2. CART(基尼指数):使用二叉树,树过于复杂,容易过拟合

        3. 提升树(残差):多个弱学习器、通过拟合残差(真实值-预测值),提升预测精度

        4. GBDT(负梯度):通过拟合损失函数负梯度,提升预测精度

        5. XGBoost(自有分裂增益计算方法):通过拟合损失函数的二阶导,拟合精度提升,并在损失函数中考虑了树的复杂度

        6. LightGBM(自有分类增益计算方法):通过对 XGBoost 算法多方面的优化,提升训练速度、减少内存占用

---------:

1. 通过直方图算法减少待计算的分裂点数量

2. 基于 leaf-wise 的生长策略,减少了树的分裂计算量

3. 支持类别特征提升了训练效率

4. 支持特征、数据维度的并行

后期优化方法:

  1. 数据层面:回译数据、单词替换
  2. 训练策略方面:优化器替换(SGD, Adam, AdamW
  3. 部署优化(提速):量化、模型剪枝、知识蒸馏、GPU加速

混淆矩阵:

        准确率是(真正例TP+真反例TN)/(所有的元素)计算出来的

        精确率就是查的准不准 所有是 (真正例TP)/(真正例TP+伪正例FP)算出来的

        召回率就是 (真正例TP)/ (真正例TP+伪反例FN)

        f1值的话是 (2*真正例TP)/(2*真正例TP+伪反例FN +伪正例FP)

        图形的话通过浮点图来画这个曲线吧

什么是采样、欠采样、过采样:

        采样

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值