人工智能基础入门(概论篇)
1、人工智能四阶段
阶段 | 白话 | 本质 | 掌握 |
---|---|---|---|
数据 | 学什么 | x,y | 数据预处理、特征工程 |
算法 | 怎么学 | 公式、网络拓扑结构 | 机器学习、深度学习等算法 |
模型 | 学到的规律 | 参数 | 各种优化算法、模型的评估 |
预测 | 学以致用 | 传入新的x,计算新的y | 模型压缩、模型上线(web服务/嵌入到xx) |
2、基本概念
机器学习是人工智能的核心,机器学习研究各种各样的算法
① 机器学习不同的学习方式:
- 有监督学习 supervised learning (数据中有x,有y–有标签)
- 无监督学习 unsupervised learning(数据中有x,没有y)
- 半监督学习 (数据中有x,有一部分y)
- 强化学习 reinforcement learning (agent和env互动,产生数据,传入模型训练)
(1)有监督学习:数据带标签:Labelled Data(x,y);且效果容易评估(预测值和真实值进行比较)
(2)无监督学习:数据没有标签(只有x),基于特征的相似度来聚类;难以评估
(3)强化学习:环境(environment)+智能体(agent);简单说,强化学习就是 让智能体通过跟环境进行互动,不断地进行学习、调整策略的过程。
② 深度学习比传统机器学习有优势
人们发现,在使用==神经网络(NN)==的时候,往往Accuracy会很高 – 比如:可以定义很多层神经网络,每一层可以有不同的神经元,层与层之间有不同的连接方式。 人们把机器学习里基于神经网络的方式归纳为深度学习。随着神经网络层次的加深,模型的效果往往会更好。
- deep learning:基于机器学习和神经网络做的
- deep reinforcement learning:通过强化学习的方式(智能体和环境进行互动)来训练模型。在互动的过程中会产生数据,把这个数据带入到算法(神经网络)中去训练模型,训练参数,之后把算法的答案赋予智能体。如此,Agent智能体通过互动的方式就能从环境中得到数据,把这个数据带入到算法(神经网络)中去训练模型,训练神经网络中的参数,等模型更新后,智能体变得更智能,就能更好地和环境进行交互,产生新的数据,来不断地更新,不断地调整神经网络,使智能体变得越来越聪明。
(1)机器学习和机器学习的区别:
- 机器学习:Machine learning
input(输入数据) --> 特征抽取(Feature extraction)处理(人为参与预处理)–> 预处理后的数据交给算法模型 classification --> 预测输出 output - 深度学习:Deep learning
input(输入数据)–> Feature extraction + Classification —> 预测输出output
中间只有一个大的神经网络模型。
① 可以更好的做到端到端(end to end):只需要把输入传入这个神经网络模型,这个模型就能直接给出输出。
② 可训练的参数更多:神经网络之间的连接线上都有参数,而深度学习的网络层次更深,层数更多,就有更多的参数来进行学习、训练。-- 通过设计更好的神经网络,让它自动的学到如何更好的对数据进行特征的提取(预处理),为了最终的分类识别预测可以识别的更准确。—— 更加智能,减少了人为参与。
③ 人工智能任务的本质:
- Machine Learning
- Supervised Learning
- 分类任务(Classification)
- 回归(Regression)
- Unsupervised Learning
- 聚类(clustering)
- 降维(Dimension Reduction)/ Dimensionality Reduction
- Supervised Learning
(1)有监督机器学习任务与本质 (有 x,y)
-
回归:(Regression)
- 本质:==拟合==历史已有的数据,根据拟合出来的函数走势预测未来
- 目标:预测 -inf(负无穷)到+inf之间具体的值,连续值 (指的是y)
- 应用:股票预测、房价预测
-
分类:(Classification)
-
本质:找到==分界==,根据分界对新来的数据进行分类(可以是分界线、分界面、超平面……)
-
目标:对新的数据预测出属于各个类别的概率,正确的类别 概率越大越好。最后通过选择概率最大的类别为最终类别,类别号y是离散值。
-
应用:图像识别、情感分析、银行风控
-
可以使用 线性/非线性 的模型:
-
eg. 目标检测任务的需求是打框和识别:打框至少需要4个值才能定位一个框,比如框中心点的位置x,y,框的高度h、宽度w;或者知道框的左上角的x1,y1 和 右下角的坐标 x2,y2,即可准确在图片中定位出框。
这些值都是连续的,所以打框任务可以转换为回归任务来做。
如果要完成目标检测,还需要在有框的基础上进行识别出框里到底属于哪个类别。-- 分类任务 给出对应的类别号 和 概率。
-
(2)无监督机器学习任务与本质
-
聚类(clustering):
-
本质:根据样本和样本之间的相似度归堆分组
-
目标:将一批数据划分到多个组
-
应用:用户分组、异常检测、前景背景分离
-
如上图,把数据 通过 算法(K-means clustering)把这些点划分成一堆一堆的。根据样本之间的相似度划分,比如说根据距离、像素值来划分。
-
-
降维(Dimension Reduction):
- 本质:去掉冗余信息或噪声(对 x 进行操作,去掉 影响结果/冗余 的因素)
- 目标:将数据的维度减少
- 应用:数据的预处理、可视化、提高模型计算速度