机器学习常用六大算法

最新推荐文章于 2024-08-08 15:41:55 发布

完美缺陷

最新推荐文章于 2024-08-08 15:41:55 发布

阅读量1.8k

点赞数

分类专栏： Deep Learning 文章标签：机器学习算法线性回归逻辑回归支持向量机 K- 均值

原文链接：https://towardsdatascience.com/the-top-10-ml-algorithms-for-data-science-in-5-minutes-4ffbed9c8672

版权

Deep Learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了六种流行的机器学习算法，包括线性回归、逻辑回归、决策树、支持向量机、K-均值和降维。每种算法都有其独特的应用场景，如分类、回归、聚类和特征选择。此外，还提到了其他知名的机器学习算法，如朴素贝叶斯、K-最近邻算法、随机森林和人工神经网络。

摘要由CSDN通过智能技术生成

机器学习是人工智能行业的一个创新且重要的领域。我们为机器学习程序选择的算法类型，取决于我们想要实现的目标。现在，机器学习有很多算法。可能对于初学者来说，这是相当不堪重负的。此前，Educative.io 联合创始人法希姆乌尔哈克（Fahim ul Haq）发文简要介绍了几种流行的机器学习算法，帮助初学者进入机器学习的世界。

1. 线性回归
线性回归（Linear Regression）可能是最流行的机器学习算法。线性回归就是要找一条直线，并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量（x 值）和数值结果（y 值）。然后就可以用这条线来预测未来的值。
这种算法最常用的技术是最小二乘法（Least of squares）。这个方法计算出最佳拟合线，以使得与直线上每个数据点的垂直距离最小，总距离是所有数据点的垂直距离的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。

2. 逻辑回归
逻辑回归（Logistic regression）与线性回归类似，但它是用于输出为二进制的情况（即，当结果只能有两个可能的值）。对最终输出的预测是一个非线性的 S 型函数（称为 logistic function, g()）。
这个逻辑函数将中间结果值映射到结果变量 Y，其值范围从 0 到 1。然后，这些值可以解释为 Y 出现的概率。S 型逻辑函数的性质使得逻辑回归更适合用于分类任务。

3. 决策树
决策树（Decision Trees）可用于回归和分类任务。在这一算法中，训练模型通过学习树表示（Tree representation）的决策规则来学习预测目标变量的值。树是由具有相应属性的节点组成的。

在每个节点上，人们根据可用的特征询问有关数据的问题。左右分支代表可能的答案，最终节点（即叶节点）对应于一个预测值。每个特征的重要性是通过自顶向下方法确定的。节点越高，其属性就越重要。

4. 支持向量机（SVM）
支持向量机（Support Vector Machine）是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线，它们之间的边距最大。为此，要将数据项绘制为 n 维空间中的点，其中，n 是输入特征的数量。在此基础上，支持向量机找到一个最优边界，称为超平面（Hyperplane），它通过类标签将可能的输出进行最佳分离。
超平面与最近的类点之间的距离称为边距。最优超平面具有最大的边界，可以对点进行分类，从而使最近的数据点与这两个类之间的距离最大化。

5. K- 均值

K- 均值（K-means）是通过对数据集进行分类来聚类的。例如，这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习，因此，你只需使用训练数据 X，以及你想要识别的聚类数量 K。
该算法根据每个数据点的特征，将每个数据点迭代地分配给 K 个组中的一个组。它为每个 K- 聚类选择 K 个点。 K- 聚类又称为质心，基于相似度，将新的数据点添加到具有最近质心的聚类中，这个过程一直持续到质心停止变化为止。

6. 降维
随着人们捕获的数据量越来越大，机器学习问题也变得更加复杂。这就意味着训练极其缓慢，而且很难找到一个好的解决方案。这一问题，通常被称为“维数灾难”（Curse of dimensionality）。
降维（Dimensionality reduction）试图在不丢失最重要信息的情况下，通过将特定的特征组合成更高层次的特征来解决这个问题。主成分分析（Principal Component Analysis，PCA）是最流行的降维技术。
主成分分析通过将数据集压缩到低维线或超平面 / 子空间来降低数据集的维数。这尽可能地保留了原始数据的显著特征。

以上就是当下流行的几种机器学习算法，除此以外，还有朴素贝叶斯、K- 最近邻算法（KNN）、随机森林、人工神经网络（ANN）等也是有名的机器学习算法。