机器学习十大经典算法
详解机器学习十大经典算法
小小谢先生
拿过大厂、银行、国企、事业单位、研究所等公司offer。
致力于信创产业,人工智能布道者
展开
-
机器学习十大经典算法之KNN最近邻算法
KNN简介KNN(K-NearestNeighbor)是机器学习入门级的分类算法,非常简单。它实现将距离近的样本点划为同一类别;KNN中的K指的是近邻个数,也就是最近的K个点 ;根据它距离最近的K个点是什么类别来判断属于哪个类别。KNN算法步骤我们有一堆样本点,类别已知,如下图左,蓝色为一类,黄色为另一类。现在有个新样本点,也就是图中黑色的叉叉,需要判断它属于哪一类。KNN做的就是选出距离目标点黑叉叉距离最近的k个点,看这k个点的大多数颜色是什么颜色。这里的距离用欧氏距离来度量。给定两个样本 X=原创 2020-08-18 23:12:56 · 1856 阅读 · 0 评论 -
机器学习十大经典算法之随机森林
随机森林简介随机森林是机器学习一种常用的方法。它是以决策树为基础,用随机的方式排列建立的,森林里每个决策树之间都是没有关联的。 在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。随机森林可以用来进行无监督学习聚类和异常点检测。决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某原创 2020-08-14 23:52:54 · 1974 阅读 · 0 评论 -
机器学习十大经典算法之AdaBoost
集成学习Boosting集成学习大致可分为两大类:Bagging和Boosting。Bagging一般使用强学习器,其个体学习器之间不存在强依赖关系,容易并行。Boosting则使用弱分类器,其个体学习器之间存在强依赖关系,是一种序列化方法。Bagging主要关注降低方差,而Boosting主要关注降低偏差。Boosting是一族算法,其主要目标为将弱学习器“提升”为强学习器,大部分Boosting算法都是根据前一个学习器的训练效果对样本分布进行调整,再根据新的样本分布训练下一个学习器,如此迭代M次,最后原创 2020-08-11 23:37:20 · 796 阅读 · 0 评论 -
机器学习经典算法之PCA主成分分析
PCA主成分分析法简介主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。总而言之,PCA的概念很简单:减少数据集的维数,同时保留尽可能多的主要信息。原创 2020-08-05 23:22:51 · 2087 阅读 · 0 评论 -
机器学习十大经典算法之K-Means聚类算法
聚类介绍聚类在机器学习,数据挖掘,模式识别,图像分析以及生物信息等领域有广泛的应用。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离(一般是欧式距离)等。聚类的应用在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区原创 2020-08-03 22:40:25 · 1923 阅读 · 0 评论 -
机器学习十大经典算法之逻辑回归
逻辑回归简介逻辑回归虽然名称有回归两字,但是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+bY=aX+bY=aX+b,y的取值范围是[-∞, +∞]。因其简单而受到工业界的关注。Y的取值范围过大,一般要把结果进行正则化,限定在[0,1]。所以需要把结果带入非线性变换Sigmoid函数中,即可得到[0,1]之间取值范围的数S,S可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了。Sigmoid函数做过机器学习或原创 2020-07-22 11:18:42 · 1399 阅读 · 0 评论 -
机器学习十大经典算法之最小二乘法
最小二乘法概述最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。简而言之,最小二乘法同梯度下降类似,都是一种求解无约束最优化问题的常用方法,并且也可以用于曲线拟合,来解决回归问题。一元线性模型如果以最简单的一元线性模型来解释最小二乘法。回归分析中,如果只包括一个自变量和原创 2020-07-17 22:02:44 · 22451 阅读 · 13 评论 -
机器学习十大经典算法之朴素贝叶斯分类
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。分类问题从数学角度来说,分类问题可做如下定义:已知集合C=y1,y2,....ynC={{y_{1},y_{2},....y_{n}} }C=y1,y2,....yn和I=x1,x2,x3......xnI=x_{1}, x_{2}, x_{3}......x_{n}I=x1,x2,x3......xn,确定映射规则y = f(),使得任意xi原创 2020-07-14 23:11:08 · 2223 阅读 · 0 评论 -
机器学习十大经典算法之决策树
机器学习经典十大算法机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热,而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一些最常见的机器学习例子,比如Netflix的算法可以根据你以前看过的电影来进行电影推荐,而Amazon的算法则可以根据你以前买过的书来推荐书籍。机器学习算法可以分为三大类:监督学习、无监督学习和强化学习。监督学习可用于一个特定的数据集(训练集)具有某一属性(标签),但是其他数据没有标签或者需要预测标签的情况。无监督学习可用于给定的没有标原创 2020-07-12 23:32:33 · 2263 阅读 · 0 评论