人工智能
人工智能(Artificial Intelligence),英文缩写为AI。是指使用某种算法来实现机器来模拟人的智能或者超越人的智能。人工智能并不是指任何的具体的 算法,它只是一个模糊的、大概的 概念。
机器学习
机器学习(Machine Learning,MI),是指很多算法的集合。
神经网络
神经网络是很多机器学习算法中的一个,它是根据人类的大脑构建出一个人工神经网络。包括(输入层、隐藏层、输出层)
深度学习
深度学习本质是也是神经网络(深度的含义一是指网络的层数变多了,另一个意思是可以提取数据的更深层的特征,即提取的特征越抽象)
机器学习可以用来作为图像识别(识别图像中的物体)、目标识别(不仅可以识别物体种类,而且可以框出来)、人脸识别、图片描述(物体a在做什么等等)、图像风格转换(第一张图片的物体加上第二张图片的风格,从而生成第三张图片)、语音识别(语音转文字)、文本分类、机器翻译、创作诗歌、图像生成。
下面介绍一下学习机器学习的框架步骤:
推荐使用python进行学习(python 、anaconda、Jupyter(需要修改路径)、PyCharm(作为Python编程时,可以通过file->setting->project interpreter里面导入各种工具包))
基本概念
数据挖掘和机器学习的关系
什么是数据挖掘?
能够通过简单的查询就能知道结果的问题不属于数据挖掘;而需要很多数据去挖掘数据背后的东西才能得到想要的结果,这样复杂的问题才属于数据挖掘。
什么是机器学习?
机器学习是在需要进行数据挖掘时所需要用到的一个工具。
训练数据/验证数据/测试数据
- 建模之前,我们可以把数据分成三部分。
训练集(Training data)
验证集(Validation data)
测试集(Test data) - 训练集还是用来训练,构建模型。
- 验证集是用来在模型训练阶段测试模型的好坏。(验证集也可以没有,只把数据分为训练集和测试集也可以)
- 等模型训练好之后,再用测试集评估模型的好坏。
监督学习/无监督学习/半监督学习
监督学习
处理的数据是带标签的,可以用来分类。
无监督学习
处理的数据是不带标签的,可以用来聚类。
半监督学习
半监督学习是监督学习和无监督学习相结合的一种学习方式。主要用来解决使用少量带标签的数据和大量没有标签的数据进行训练和分类的问题。
回归/分类/聚类
回归
回归可能是线,也可能是面。下面是根据二维数据点画出来的一条回归线。
根据已有的数据样本建模,得到回归模型(直线/曲线/面),当有新的样本拿过来时,可以根据模型去预测新的样本输出值。(如房屋价格预测),预测数据为连续型数值。
分类
如图像识别、垃圾邮件分类、文本分类……根据已有是带标签的数据(明确知道样本属于哪个标签)进行训练分类器,当有新的样本过来时,我们根据其属性以及训练好的模型,来判断新样本属于哪个类别。预测数据为类别型数据,但是类别已知。
聚类
聚类数据是没有标签的,聚类完成后才知道数据属于哪一个类别。预测数据为类别型数据,但是类别未知。