机器学习
zyuPp
你今日练习了吗?
展开
-
【机器学习】【聚类】
聚类介绍五个类型相似度、距离计算1. 距离2.相似度额外知识K-means算法原理计算步骤优缺点优点缺点DBSCAN算法一些概念算法步骤优缺点优点缺点密度最大值聚类DPCA概念聚类过程计算关键点介绍聚类算法对大量未标注数据,按照数据的内在相似性将数据集划分为多个类别,一种无监督算法。/N个对象,K个簇,K<=NK<=NK<=N。五个类型基于分层的聚类(hierarcal methods)思想:对数据集进行逐层,直到某条件满足为止。自下而上的分裂型和合并型代表:BIRCH原创 2020-06-01 17:23:46 · 4852 阅读 · 0 评论 -
【机器学习】【最大熵模型】
最大熵模型最大熵模型是运用了最大熵思想的多分类模型,那就先理解什么叫最大熵!熵熵代表随机变量的不确定性,熵越大代表随便变量越不确定。最大熵的思想当我们猜测一个概率分布,如果对其分布一无所知,则选择熵最大的均匀分布,如果有一定的先验知识,那么就选择满足这些条件的熵最大的分布.核心思想:保留全部不确定性,将风险降到最小模型的推导从训练集T中抽取特征,然后求这些特征在训练集中的经验分布P...原创 2020-04-28 16:51:38 · 285 阅读 · 0 评论 -
【机器学习】【关联分析】【Apriori】
关联分析关联规则(association rules)是常用的无监督学习算法,目标是发掘数据内在结构特征之间的关联性\color{red}{发掘数据内在结构特征之间的关联性}发掘数据内在结构特征之间的关联性一句话简介:找到特征之间有意义的关系,构建有用的特征和对应的应用。关联规则通常分两类:一是简单关联(事物之间的普通关系),二是序列关联(考虑事物普通关系同时关注时间先后顺序)简单关联规则...原创 2020-04-21 21:39:54 · 897 阅读 · 0 评论 -
【机器学习】【朴素贝叶斯】
基于贝叶斯定理与特征条件独立假设给定训练集,基于特征条件独立假设学习输入、输入出的联合概率分布基于此模型,对给定输入x,用贝叶斯定理求出后验概率最大的输出y...原创 2020-04-19 15:42:16 · 217 阅读 · 0 评论 -
【XGBoost、LightGBM、CatBoost】
XGBoost为什么会有XGBoost?Boosting方法需要不断迭代来生成模型,每次迭代都有新树出现,如果数据集比较复杂,那么计算量会很大,XGBoost就是为了解决这个问题而出现的。陈天奇用C++实现,多线程方式实现回归树并行构建,再改进一下算法,提升训练速度和预测精度。XGBoost和GBDT的区别基分类器:GBDT用CART作为基分类器,而XGB支持线性分类器,还自带正则化...原创 2020-04-10 16:22:59 · 765 阅读 · 0 评论 -
【集成学习】【随机森林】【AdaBoost、GBDT】
随机森林、AdaBoost、GBDT、XGBoost、LightGBM、CatBoost组合分类器思想:将多个分类器的结果进行多票表决或取平均值,以此作为最终的结果。好处:提升模型精度,整合各个分类器结果,得到更合理的决策边界,减少整体错误处理较大数据集,可以划分多个子集,对子集构建分类器;处理较小数据集,通过自助采样boostrap产生多个数据集,构建分类器当决策边界比较复杂...原创 2020-04-06 17:29:24 · 1158 阅读 · 0 评论 -
【面试复习】【决策树】
决策树系列本文将会总结一下决策树相关的算法,包括ID3、C4.5、CART决策树决策树是有监督分类模型,本质是选择一个最大信息增益的特征值进行分割,直到达到结束条件或叶子结点纯度达到阈值怎样才算一个好的决策树?\color{red}怎样才算一个好的决策树?怎样才算一个好的决策树?与训练数据矛盾较小的决策树,同时又具有很好的泛化能力决策树学习过程三步走:特征选择、决策树的生成以及决策...原创 2020-04-06 15:11:47 · 406 阅读 · 1 评论 -
【机器学习】【SVM】
支持向量机Support Vector Machine缘由(与感知机的区别)当train data线性可分时,存在多个分离超平面可以把两类数据正确分开,感知机利用的是误分类最小的策略,求得分离超平面。但是这是有无穷多个解,而线性svm利用了间隔最大化求分离超平面,解是唯一的,优点是不仅把正负样本点分开,还对最难分的点(即离超平面最近的点)也有足够大的确信度将它们分开核心思想希望用一个平面去...原创 2020-04-01 16:48:58 · 276 阅读 · 0 评论 -
【机器学习】【逻辑回归复习】
逻辑回归复习线性回归是y=wx+by=wx+by=wx+b,最简单的回归预测模型,目标函数是最小化函数值和真实值的平方误差逻辑回归是y=σ(z)=1/1+exp(−z),z=wx+by=\sigma(z)=1/1+exp(-z) ,z=wx+by=σ(z)=1/1+exp(−z),z=wx+b,常用于二分类的分类模型逻辑回归的本质:假设数据服从这个分布,然后使用极大似然估计做参数的估计...原创 2020-03-30 16:44:01 · 276 阅读 · 0 评论