机器学习综述及各算法特点

最新推荐文章于 2021-03-15 19:54:38 发布

转行了

最新推荐文章于 2021-03-15 19:54:38 发布

阅读量2.8k

点赞数 3

分类专栏：人工智能文章标签：机器学习人工智能算法

人工智能专栏收录该内容

1 篇文章

订阅专栏

最初的原文地址：不明

机器学习文献综述

一、背景介绍

数据库：百度词条、知网数据库。检索式：机器学习

检索结果及分析：

机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E withrespect to some class of tasks T and performance measure P, if its performanceat tasks in T, as measured by P, improves with experience E。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。它的应用已遍及人工智能的各个分支，如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

机器学习是人工智能研究较为年轻的分支,它的发展过程大体上分为四个时期。第一阶段是20世纪50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统,其主要研究方法是不断修改系统的控制参数和改进系统的执行能力,不涉及与具体任务有关的知识。本阶段的代表性工作是:塞缪尔(Samuel)的下棋程序。但这种学习的结果远不能满足人们对机器学习系统的期望。第二阶段是在60年代中叶到70年代中叶,被称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。本阶段的代表性工作有温斯顿(Winston)的结构学习系统和海斯罗思(Hayes-Roth)等的基本逻辑的归纳学习系统。第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功,促进机器学习的发展。1980年,在美国的卡内基—梅隆(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

从本质上讲，机器学习就是要使计算机能模拟人的学习行为，自动地通过学习获取知识和技能，不断改善性能，实现人工智能。

随着计算机网络技术的发展，各行各业积累的数字化数据越来越多，如微博的数字化、聊天记录的数字化、视频探头信息的数字化，大数据（Big Data）成为当今流行的研究主题，在这种潮流下，如何对这些数据进行分析，从中发现蕴涵的规律及有价值的信息，机器学习我想将有一席用武之地。

二、研究现状

数据库：Find+发现。检索式：机器学习*算法*综述

检索结果及分析：

1、机器学习分类

机器学习，一般根据处理的数据是否存在人为标注主要分为监督学习和无监督学习。监督学习用有标签的数据作为最终学习目标，通常学习效果好，但获取有标签数据的代价是昂贵的，无监督学习相当于自学习或自助式学习，便于利用更多的数据，同时可能会发现数据中存在的更多模式的先验知识(有时会超过手工标注的模式信息)，但学习效率较低。二者的共性是通过建立数学模型为最优化问题进行求解，通常没有完美的解法。

监督学习的数据集包括初始训练数据和人为标注目标，希望根据标注特征从训练集数据中学习到对象划分的规则，并应用此规则在测试集数据中预测结果，输出有标记的学习方式。因此，监督学习的根本目标是训练机器学习的泛化能力。监督学习的典型算法有：逻辑回归、多层感知机、卷积神经网络等；典型应用有:回归分析、任务分类等。

无监督学习，用于处理未被分类标记的样本集数据并且事先不需要进行训练，希望通过学习寻求数据间的内在模式和统计规律，从而获得样本数据的结构特征，因此，无监督学习的根本目标是在学习过程中根据相似性原理进行区分"无监督学习更近似于人类的学习方式，被誉为:人工智能最有价值的地方。无监督学习的典型算法有自动编码器、受限玻尔兹曼机、深度置信网络等；典型应用有:聚类和异常检测等。

总之，机器学习就是计算机在算法的指导下，能够自动学习大量输入数据样本的数据结构和内在规律，给机器赋予一定的智慧，从而对新样本进行智能识别，甚至实现对未来的预测"。

2、机器学习目前研究现状

（1）面向任务:在预定的一些任务中,分析和开发学习系统,以便改善完成任务的水平,这是专家系统研究中提出的研究问题；

（2）认识模拟:主要研究人类学习过程及其计算机的行为模拟,这是从心理学角度研究的问题；

（3）理论分析研究:从理论上探讨各种可能学习方法的空间和独立于应用领域之外的各种算法。

这三个研究方向各有自己的研究目标,每一个方向的进展都会促进另一个方向的研究。这三个方面的研究都将促进各方面问题和学习基本概念的交叉结合,推动了整个机器学习的研究。

3、机器学习主要算法

数据库：谷歌搜索。检索式：机器学习主要算法

检索结果及分析：

（1）回归算法

在大部分机器学习课程中，回归算法都是介绍的第一个算法。原因有两个：一.回归算法比较简单，介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石，如果不理解回归算法，无法学习那些强大的算法。回归算法有两个重要的子类：即线性回归和逻辑回归。

线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据？一般使用“最小二乘法”来求解。“最小二乘法”的思想是这样的，假设我们拟合出的直线代表数据的真实值，而观测到的数据代表拥有误差的值。为了尽可能减小误差的影响，需要求解一条直线使所有误差的平方和最小。最小二乘法将最优问题转化为求函数极值问题。函数极值在数学上我们一般会采用求导数为0的方法。但这种做法并不适合计算机，可能求解不出来，也可能计算量太大。

计算机科学界专门有一个学科叫“数值计算”，专门用来提升计算机进行各类计算时的准确性和效率问题。例如，著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法，也非常适合来处理求解函数极值的问题。梯度下降法是解决回归模型中最简单且有效的方法之一。从严格意义上来说，由于后文中的神经网络和推荐算法中都有线性回归的因子，因此梯度下降法在后面的算法实现中也有应用。

逻辑回归是一种与线性回归非常类似的算法，但是，从本质上讲，线型回归处理的问题类型与逻辑回归不一致。线性回归处理的是数值问题，也就是最后预测出的结果是数字，例如房价。而逻辑回归属于分类算法，也就是说，逻辑回归预测结果是离散的分类，例如判断这封邮件是否是垃圾邮件，以及用户是否会点击此广告等等。

实现方面的话，逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数，将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观，你只需要理解对数值越大，函数越逼近1，数值越小，函数越逼近0)，接着我们根据这个概率可以做预测，例如概率大于0.5，则这封邮件就是垃圾邮件，或者肿瘤是否是恶性的等等。从直观上来说，逻辑回归是画出了一条分类线。

假设我们有一组肿瘤患者的数据，这些患者的肿瘤中有些是良性的(图中的蓝色点)，有些是恶性的(图中的红色点)。这里肿瘤的红蓝色可以被称作数据的“标签”。同时每个数据包括两个“特征”：患者的年龄与肿瘤的大小。我们将这两个特征与标签映射到这个二维空间上，形成了我上图的数据。

当我有一个绿色的点时，我该判断这个肿瘤是恶性的还是良性的呢？根据红蓝点我们训练出了一个逻辑回归模型，也就是图中的分类线。这时，根据绿点出现在分类线的左侧，因此我们判断它的标签应该是红色，也就是说属于恶性肿瘤。

逻辑回归算法划出的分类线基本都是线性的(也有划出非线性分类线的逻辑回归，不过那样的模型在处理数据量较大的时候效率会很低)，这意味着当两类之间的界线不是线性时，逻辑回归的表达能力就不足。下面的两个算法是机器学习界最强大且重要的算法，都可以拟合出非线性的分类线。

（2）神经网络

神经网络(也称之为人工神经网络，ANN)算法是80年代机器学习界非常流行的算法，不过在90年代中途衰落。现在，携着“深度学习”之势，神经网络重装归来，重新成为最强大的机器学习算法之一。

神经网络的诞生起源于对大脑工作机理的研究。早期生物界学者们使用神经网络来模拟大脑。机器学习的学者们使用神经网络进行机器学习的实验，发现在视觉与语音的识别上效果都相当好。在BP算法(加速神经网络训练过程的数值算法)诞生以后，神经网络的发展进入了一个热潮。BP算法的发明人之一是前面介绍的机器学习大牛Geoffrey Hinton。具体说来，神经网络的学习机理是什么？简单来说，就是分解与整合。在著名的Hubel-Wiesel试验中，学者们研究猫的视觉分析机理是这样的。

比方说，一个正方形，分解为四个折线进入视觉处理的下一层中。四个神经元分别处理一个折线。每个折线再继续被分解为两条直线，每条直线再被分解为黑白两个面。于是，一个复杂的图像变成了大量的细节进入神经元，神经元处理以后再进行整合，最后得出了看到的是正方形的结论。这就是大脑视觉识别的机理，也是神经网络工作的机理。

让我们看一个简单的神经网络的逻辑架构。在这个网络中，分成输入层，隐藏层，和输出层。输入层负责接收信号，隐藏层负责对数据的分解与处理，最后的结果被整合到输出层。每层中的一个圆代表一个处理单元，可以认为是模拟了一个神经元，若干个处理单元组成了一个层，若干个层再组成了一个网络，也就是"神经网络"。

（3）SVM（支持向量机）

支持向量机算法是诞生于统计学习界，同时在机器学习界大放光彩的经典算法。

支持向量机算法从某种意义上来说是逻辑回归算法的强化：通过给予逻辑回归算法更严格的优化条件，支持向量机算法可以获得比逻辑回归更好的分类界线。但是如果没有某类函数技术，则支持向量机算法最多算是一种更好的线性分类技术。

但是，通过跟高斯“核”的结合，支持向量机可以表达出非常复杂的分类界线，从而达成很好的的分类效果。“核”事实上就是一种特殊的函数，最典型的特征就是可以将低维的空间映射到高维的空间。例如下图所示：

支持向量机是一种数学成分很浓的机器学习算法（相对的，神经网络则有生物科学成分）。在算法的核心步骤中，有一步证明，即将数据从低维映射到高维不会带来最后计算复杂性的提升。于是，通过支持向量机算法，既可以保持计算效率，又可以获得非常好的分类效果。因此支持向量机在90年代后期一直占据着机器学习中最核心的地位，基本取代了神经网络算法。直到现在神经网络借着深度学习重新兴起，两者之间才又发生了微妙的平衡转变。

（4）聚类算法

前面的算法中的一个显著特征就是我的训练数据中包含了标签，训练出的模型可以对其他未知数据预测标签。在下面的算法中，训练数据都是不含标签的，而算法的目的则是通过训练，推测出这些数据的标签。这类算法有一个统称，即无监督算法(前面有标签的数据的算法则是有监督算法)。无监督算法中最典型的代表就是聚类算法。

让我们还是拿一个二维的数据来说，某一个数据包含两个特征。我希望通过聚类算法，给他们中不同的种类打上标签，我该怎么做呢？简单来说，聚类算法就是计算种群中的距离，根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表就是K-Means算法。

（5）降维算法

降维算法也是一种无监督学习算法，其主要特征是将数据从高维降低到低维层次。在这里，维度其实表示的是数据的特征量的大小，例如，房价包含房子的长、宽、面积与房间数量四个特征，也就是维度为4维的数据。可以看出来，长与宽事实上与面积表示的信息重叠了，例如面积=长 ×宽。通过降维算法我们就可以去除冗余信息，将特征减少为面积与房间数量两个特征，即从4维的数据压缩到2维。于是我们将数据从高维降低到低维，不仅利于表示，同时在计算上也能带来加速。

刚才说的降维过程中减少的维度属于肉眼可视的层次，同时压缩也不会带来信息的损失(因为信息冗余了)。如果肉眼不可视，或者没有冗余的特征，降维算法也能工作，不过这样会带来一些信息的损失。但是，降维算法可以从数学上证明，从高维压缩到的低维中最大程度地保留了数据的信息。因此，使用降维算法仍然有很多的好处。

降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法，可以将具有几千个特征的数据压缩至若干个特征。另外，降维算法的另一个好处是数据的可视化，例如将5维的数据压缩至2维，然后可以用二维平面来可视。降维算法的主要代表是PCA算法(即主成分分析算法)。

（6）推荐算法

推荐算法是目前业界非常火的一种算法，在电商界，如亚马逊，天猫，京东等得到了广泛的运用。推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西，从而增加购买率，提升效益。推荐算法有两个主要的类别：一类是基于物品内容的推荐，是将与用户购买的内容近似的物品推荐给用户，这样的前提是每个物品都得有若干个标签，因此才可以找出与用户购买物品类似的物品，这样推荐的好处是关联程度较大，但是由于每个物品都需要贴标签，因此工作量较大。

另一类是基于用户相似度的推荐，则是将与目标用户兴趣相同的其他用户购买的东西推荐给目标用户，例如小A历史上买了物品B和C，经过算法分析，发现另一个与小A近似的用户小D购买了物品E，于是将物品E推荐给小A。

两类推荐都有各自的优缺点，在一般的电商应用中，一般是两类混合使用。推荐算法中最有名的算法就是协同过滤算法。

（7）其他

除了以上算法之外，机器学习界还有其他的如高斯判别，朴素贝叶斯，决策树等等算法。但是上面列的六个算法是使用最多，影响最广，种类最全的典型。机器学习界的一个特色就是算法众多，发展百花齐放。

三、机器学习的研究进展

数据库：谷歌搜索。检索式：机器学习*进展

检索结果及分析：

1、机器学习的研究近况

随着机器学习的深入研究与应用，新的网络结构和学习算法不断涌现，进一步推进了机器学习的发展。下面主要从模型结构与网络参数设计、学习算法两方面对近几年机器学习的研究进展进行介绍。

（1）模型结构及网络参数设计

Liu yan等人提出一种半监督可识别深度置信网络算法(ccbRD)并成功应用于图像的分类。Luo等人提出稀疏组受限波尔曼机(SGRBM)算法，通过实验表明该算法可以提取更局部的特征、提高识别率。Yu Dong等提出一种深度凸起网络(DCN) 算法，并用于构建语音分类的可扩展体系。Huang等人提出一种通过局部卷积深度置信网络模型学习图像总体结构特征的方法，并在人

脸数据库测试通过，取得良好效果。罗切尔提出改进RBM的Class RBM算法，实现在不训练分类器的前提下，提高在线实时监测学习特征的识别性能。Zhou等人提出一种半监督卷积深度网络(CDN)算法，可用于图像分类。Mrazova等人提出一种增长式CNN，实现快速自动调整网络拓扑结构，有效处理高维数据!逐层迭代提取高级抽象特征。Kai Ming等人提出一种空间金字塔池化CNN算法，实现不同尺寸图像的识别。

（2）学习方法

Wong等人提出一种基于Fisher准则、运用正则化要求进行深度学习提取特征的算法（RD-FM)，通过实验表明该方法比核应运具有更强的特征识别能力、微调阶段正则化应用的必要性。Collobert提出一种根据深度卷积递归图

变换网络(GTN)进行快速自然语言解析的算法，在保持性能的同时，提高了解析速度。Hinton提出通过阻止特征检测器网络权值的相互作用来改善神经网络的性能。Duchi等提出一种自适应次梯度方法用于在线学习和随机优化。孙志军等人提出一种基于边际Fisher准则的深度学习特征提取算法。Zhou等提出一种半监督活跃深度网络(ADN)算法，用于解决标记数据不足的情感分类问题。TOM等人提出用于语句情感分类的高级深度学习算法。Schaul等人提出一种学习率自适应方法。

四、机器学习面临的挑战

数据库：谷歌搜索检索式：机器学习*挑战

目前，以深度学习为代表的机器学习领域的研究与应用取得巨大进展有目共睹，有力地推动了人工智能的发展"但是也应该看到，以深度学习为代表的机器学习前沿毕竟还是一个新生事物，多数结论是通过实验或经验获得，还有待于理论的深入研究与支持。CNN的推动者和创始人之一的美国纽约大学教授 Yann Lucan在2015IEEE计算机视觉与模式识别会议上指出深度学习的几个关键限制:缺乏背后工作的理论基础和推理机制;缺乏短期记忆;不能进行无监督学习。

另外，基于多层人工神经网络的深度学习受到人类大脑皮层分层工作的启发，虽然深度学习是目前最接近人类大脑的智能学习方法，但是当前的深度网络在结构!功能!机制上都与人脑有较大的差距。并且对大脑皮层本身的结构与机理还缺乏精准认知，如果要真正模拟人脑的100多亿个神经元组成的神经系统，目前还难以实现。因此，对计算神经科学的研究也需要有很长一段路要走。

还有，机器学习模型的网络结构!算法及参数越发庞大、复杂，通常只有在大数据量、大计算量支持下才能训练出精准的模型，对运行环境要求越来越高!占用资源也越来越多，这也抬高了其应用门槛。

总之，机器学习方兴未艾并且拥有广阔的研究与应用前景，但是面临的挑战也不容忽视，二者交相辉映才能够把机器学习推向更高的境界。

五、结论

本文对机器学习进行了较为全面介绍，包括机器学习的概念，发展简史及分类，重点分析了机器学习的经典算法，还介绍了机器学习的最新研究进展。愿景和应用，最后探讨了机器学习面临的挑战。毋庸讳言，以深度学习为代表的机器学习作为人工智能的一个重要分支，目前在诸多领域取得了巨大进展，并且展示出强大的发展潜力，但是更应该看到，人工智能仍然处理初级阶段，机器学习仍然主要依赖监督学习，还没有跨越弱人工智能，并且作为机器学习模型基础的人脑认知研究还有诸多空白需要填补!机器学习理论本身亟需新的突破!计算机科学技术及相关学科领域的发展与支撑与有待于进一步加强，因此，对于机器学习，我们要走的路一定很长、很长。

令人欣喜的是机器学习已经成为全人类共同瞩目、发力的研究与应用领域，并且已经上升为国家战略2013-2014年，美国!欧盟和日本先后启动了国家大型脑研究计划;中国未来五年计划实施的100个重大工程及项目中“脑科学与类脑研究”名列第四。因此，可以预见机器学习的道路是曲折的，前途是光明的。