机器学习综述

程序猿阿三

于 2024-03-11 14:46:26 发布

阅读量373

点赞数 4

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/youbingchen/article/details/136623723

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

随着人工智能快速发展，从阿法狗到今天的ChatGPT，人工智能可谓是日新月异，为了更好学习人工智能技术，针对人工智能技术进行总结和分享。我们在人工智能领域经常提到机器学习、深度学习以及LLM他们之间是什么关系。帮自己建立系统性的思维。

人工智能（Artificial Intelligence）是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门技术科学。 简单地说，就是给机器赋予人的智能。机器学习是人工智能的一个子集，目前已经发展出许多有用的方法，比如支持向量机，回归，决策树，随机森林，强化方法，集成学习，深度学习等等，这些都是我们经常听到算法，今天着重介绍一下人工智能现在最大的研究方向：机器学习。

机器学习

机器学习（Machine Learning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。最基本的做法是使用算法解析数据、从中学习，然后对真实世界中的事件作出决策或预测。

机器学习分类

按模型训练方式分：

监督学习（Supervised Learning）

（2）半监督学习（Semi-supervised Learning）

（3）无监督学习（Unsupervised Learning）

（4）强化学习（Reinforcement Learning）

监督学习

监督学习（Supervised Learning）监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签，训练一个预测模型，将输入数据映射到标签的过程。把已知的“问题和答案”（训练集）提供给机器去学习，机器总结出自己的“方法论”。把“新的问题”（测试集）提供给机器去解答

监督学习主要任务：

回归：预测连续的、具体的数值

分类：对各种事物分类，用于离散型预测

常见的有监督机器学习算法包括：

（1）支持向量机(Support Vector Machine, SVM)

（2）朴素贝叶斯(Naive Bayes)

（3）逻辑回归(Logistic Regression)

（4）K近邻(K-Nearest Neighborhood, KNN)

（5）决策树(Decision Tree)

（6）随机森林(Random Forest)

（7）AdaBoost

（8）线性判别分析(Linear Discriminant Analysis, LDA)等。

（9）深度学习(Deep Learning)也是大多数以监督学习的方式呈现。

半监督学习

半监督学习（Semi-supervised Learning）在此学习方式下，输入数据部分被标记，部分没有被标记，这种学习模型可以用来进行预测。这类学习算法非常贴合现实场景，我们在实际场景中很容易收集到未标记的数据，标记的数据往往是少量的。

常见应用场景：应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，通过对已标记数据建模，在此基础上，对未标记数据进行预测。

半监督进一步划分为纯半监督学习和直推学习:

（1）半监督学习：假定训练数据中未标记数据样本并非待预测数据。

（2）直推学习：未标记数据样本就是待预测数据。

常见的半监督学习算法包括：

（1）半监督支持向量机（Semi-Supervised Support Vector Machine，S3VM）

（2）图半监督学习

（3）基于分歧的方法（disagreement-based method）

无监督学习

无监督学习（Unsupervised Learning）本质上是一种统计手段，在没有标签的数据里发现潜在的一些结构的训练方法。简言之：给定数据，寻找隐藏的结构。

无监督学习应用场景：

（1）发现异常数据

（2）聚类，如细分用户

（3）给用户做推荐

（4）关联规则的学习

常见的无监督学习算法包括：

（1）Apriori算法

（2）k-Means算法

强化学习

强化学习（reinforcement learning）

主要基于决策进行训练，根据输出结果（决策）的成功或失败来训练算法，通过大量经验训练优化后的算法将能够给出较好的预测。简言之：给定数据，学习如何选择一系列行动，以最大化长期收益。

强化学习主要任务：

科学决策：优化决策以得到最佳结果。

动态规划：把复杂问题分解成若干个子问题，通过寻找子问题的最优解来得到复杂问题的最优解。

机器学习任务

从开发视角出发，我们经常接收到具体任务去划分类别，可能更容易整体理解机器学习，机器学习任务基本可以分成3种：

（1）回归

（2）分类

（3）聚类

回归常用的算法有：

（1）线性回归

（2）非线性回归

（3）回归树

（4）深度学习

常用评估指标有：

均方误差（Mean Square Error, MSE）、平均绝对误差（Mean Absolute Error，MAE）、均方根误差（Root Mean Square Error, RMSE）、R-squared（coefficient of detemination）拟合和MAPE（Mean Absolute Percentage Error, MAPE）

分类常用的算法：

（1）分类树

（2）逻辑回归

（3）k-最近邻算法

（4）支持向量机

（5）朴素贝叶斯

（6）深度学习

常用评估指标有：

准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 Score、P-R曲线（Precision-Recall Curve）、ROC、AUC。

聚类算法有：

（1）k均值聚类（K-Means）

（2）层次聚类（Hierarchical Clustering）

评估的指标有：

外部指标：Jaccard系数(Jaccard Cofficient，JC) 、FM指数（Fowlkes and Mallows Index, FMI）、Rand指数（Rand Index, RI)

内部指标：DB指数（Daives-Bouldin Index，DBI）、Dunn指数（Dunn Index，DI）和SC轮廓指数（Shihouette Coefficient ，SC）

程序猿阿三

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习综述

机器学习是人工智能的一个子集，目前已经发展出许多有用的方法，比如支持向量机，回归，决策树，随机森林，强化方法，集成学习，深度学习等等，这些都是我们经常听到算法，今天着重介绍一下人工智能现在最大的研究方向：机器学习。这类学习算法非常贴合现实场景，我们在实际场景中很容易收集到未标记的数据，标记的数据往往是少量的。内部指标：DB指数（Daives-Bouldin Index，DBI）、Dunn指数（Dunn Index，DI）和SC轮廓指数（Shihouette Coefficient ，SC）
复制链接

扫一扫