机器学习基础知识

最新推荐文章于 2023-04-24 17:00:00 发布

IronLavender

最新推荐文章于 2023-04-24 17:00:00 发布

阅读量399

点赞数

分类专栏：机器学习文章标签：机器学习基本概念

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

机器学习非常重要

我不断地告诉大家，未来十年最热门的职业是统计学家。很多人认为我是开玩笑，谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢？如何解释数据、处理数据、从中抽取价值、展示和交流数据结果，在未来十年将是最重要的职业技能，甚至是大学，中学，小学的学生也必需具备的技能，因为我们每时每刻都在接触大量的免费信息，如何理解数据、从中抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节，我们还需要合理的展示数据、交流和利用数据。我确实认为，能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自己部门产生的数据。
——MaKinsey Quarterly, 谷歌首席经济学家，2009年1月

何谓机器学习

简单地说，机器学习就是把无序的数据转换成有用的信息。

学习机器学习需要哪些基础

计算机科学
统计学
数学等

机器学习的分类

监督学习

在监督学习过程中，我们只需要给定输入样本集，机器就可以推演出指定目标变量的可能结果。监督学习相对比较简单，机器只需要从输入数据中预测合适的模型，并从中计算出目标变量的结果。之所以称之为监督学习，是因为这类算法必须知道预测什么，即目标变量的分类信息。

根据目标变量的类型，可以再将监督学习分为分类和回归。

-分类
适用于标称型目标变量，标称型目标变量的结果只有在有限目标集中取值，如上图中的文艺青年和普通青年，也就是说目标变量是离散的。

分类.jpg

-回归
适用于数值型目标变量，数值型目标变量的结果只有在无线目标集中取值，如{0,0.01,0.02,0.03,.....}，也就是说目标变量是连续的，如下图的数据曲线拟合就是回归的一个例子。

回归.png

无监督学习

与监督学习相对应的是无监督学习，此时不会给出目标值，根据应用程度不同，无监督学习可以分为聚类和密度估计。

-聚类
将数据集合分成类似的对象组成的多个类的过程称为聚类。

-密度估计
密度估计除了完成聚类所要完成的目标之外，还要估计测试数据与每个分组的相似程度。

例如，给定10000个人的样本数据，利用无监督学习算法将这10000个人进行分类，这个就是聚类，而如果要计算你是属于哪个group，并计算相似程度这就是密度估计。

如何选择合适的算法？

根据前面的描述，那么问题来了，如果给你一个问题，你改如何选择算法呢？是使用监督学习算法还是无监督学习算法？是使用分类问题？回归问题？聚类问题？还是密度估计问题？具体选择依据如下图所示，但是我们只能在一定程度上缩小算法的选择范围，哪种算法最优还需要不断尝试。

如何选择合适的算法.png

如何选择合适的算法？

如下图所示。

开发机器学习应用程序步骤.png

机器学习入门阶段自学路线

《机器学习实战》
书中主要讲了数据挖掘的十大算法，如C4.5决策树、K-means聚类算法、支持向量机（SVM）、Apriori、最大期望算法（EM）、AdaBoost算法，kNN算法、朴素贝叶斯算法等等。个人认为这本书非常适合入门，没有很多的数学知识，但是比较实用。看完这本书，至少能吹吹水了，而不用每次同学谈论SVM等都一脸懵逼。
Coursera上的吴恩达的机器学习公开课
最近的课程五月中旬就开始了，建议完成所有作业，最好能全部拿满分。
一些网上入门的建议
机器学习入门者学习指南（经验分享）
机器学习该怎么入门？
机器学习自学指南
 机器学习的最佳入门学习资源
 机器学习经典书籍
 机器学习入门书单