机器学习综述

随着人工智能快速发展,从阿法狗到今天的ChatGPT,人工智能可谓是日新月异,为了更好学习人工智能技术,针对人工智能技术进行总结和分享。我们在人工智能领域经常提到机器学习、深度学习以及LLM他们之间是什么关系。帮自己建立系统性的思维。

5d2df4b62faa28f55842ccbb4b00fa04.jpeg

人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门技术科学。 简单地说,就是给机器赋予人的智能。机器学习是人工智能的一个子集,目前已经发展出许多有用的方法,比如支持向量机,回归,决策树,随机森林,强化方法,集成学习,深度学习等等,这些都是我们经常听到算法,今天着重介绍一下人工智能现在最大的研究方向:机器学习。


机器学习

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。最基本的做法是使用算法解析数据、从中学习,然后对真实世界中的事件作出决策或预测。


机器学习分类

按模型训练方式分:

监督学习(Supervised Learning)

(2)半监督学习(Semi-supervised Learning)

(3)无监督学习(Unsupervised Learning)

(4)强化学习(Reinforcement Learning)


监督学习


监督学习(Supervised Learning)监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签,训练一个预测模型,将输入数据映射到标签的过程。把已知的“问题和答案”(训练集)提供给机器去学习,机器总结出自己的“方法论”。把“新的问题”(测试集)提供给机器去解答


监督学习主要任务:

回归:预测连续的、具体的数值

分类:对各种事物分类,用于离散型预测


常见的有监督机器学习算法包括:

(1)支持向量机(Support Vector Machine, SVM)

(2)朴素贝叶斯(Naive Bayes)

(3)逻辑回归(Logistic Regression)

(4)K近邻(K-Nearest Neighborhood, KNN)

(5)决策树(Decision Tree)

(6)随机森林(Random Forest)

(7)AdaBoost

(8)线性判别分析(Linear Discriminant Analysis, LDA)等。

(9)深度学习(Deep Learning)也是大多数以监督学习的方式呈现。


半监督学习

半监督学习(Semi-supervised Learning)在此学习方式下,输入数据部分被标记,部分没有被标记,这种学习模型可以用来进行预测。这类学习算法非常贴合现实场景,我们在实际场景中很容易收集到未标记的数据,标记的数据往往是少量的。


常见应用场景:应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。


半监督进一步划分为纯半监督学习和直推学习:

(1)半监督学习:假定训练数据中未标记数据样本并非待预测数据。

(2)直推学习:未标记数据样本就是待预测数据。

9ec1b3c80632d2bb2651e5f67257417c.jpeg


常见的半监督学习算法包括:

(1)半监督支持向量机(Semi-Supervised Support Vector Machine,S3VM)

(2)图半监督学习

(3)基于分歧的方法(disagreement-based method)


无监督学习

无监督学习(Unsupervised Learning)本质上是一种统计手段,在没有标签的数据里发现潜在的一些结构的训练方法。简言之:给定数据,寻找隐藏的结构。


无监督学习应用场景:

(1)发现异常数据

(2)聚类,如细分用户

(3)给用户做推荐

(4)关联规则的学习


常见的无监督学习算法包括:

(1)Apriori算法

(2)k-Means算法


强化学习


强化学习(reinforcement learning)

主要基于决策进行训练,根据输出结果(决策)的成功或失败来训练算法,通过大量经验训练优化后的算法将能够给出较好的预测。简言之:给定数据,学习如何选择一系列行动,以最大化长期收益。


强化学习主要任务:

科学决策:优化决策以得到最佳结果。

动态规划:把复杂问题分解成若干个子问题,通过寻找子问题的最优解来得到复杂问题的最优解。


机器学习任务

从开发视角出发,我们经常接收到具体任务去划分类别,可能更容易整体理解机器学习,机器学习任务基本可以分成3种:

(1)回归

(2)分类

(3)聚类


回归常用的算法有:

(1)线性回归

(2)非线性回归

(3)回归树

(4)深度学习


常用评估指标有:

均方误差(Mean Square Error, MSE)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error, RMSE)、R-squared(coefficient of detemination)拟合和MAPE(Mean Absolute Percentage Error, MAPE)


分类常用的算法:

(1)分类树

(2)逻辑回归

(3)k-最近邻算法

(4)支持向量机

(5)朴素贝叶斯

(6)深度学习


常用评估指标有:

准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线(Precision-Recall Curve)、ROC、AUC。


聚类算法有:

(1)k均值聚类(K-Means)

(2)层次聚类(Hierarchical Clustering)


评估的指标有:

外部指标:Jaccard系数(Jaccard Cofficient,JC) 、FM指数(Fowlkes and Mallows Index, FMI)、Rand指数(Rand Index, RI)


内部指标:DB指数(Daives-Bouldin Index,DBI)、Dunn指数(Dunn Index,DI)和SC轮廓指数(Shihouette Coefficient ,SC)


  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿阿三

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值