机器学习基础知识

机器学习非常重要

我不断地告诉大家,未来十年最热门的职业是统计学家。很多人认为我是开玩笑,谁又能想到计算机工程师会是20世纪90年代最诱人的职业呢?如何解释数据、处理数据、从中抽取价值、展示和交流数据结果,在未来十年将是最重要的职业技能,甚至是大学,中学,小学的学生也必需具备的技能,因为我们每时每刻都在接触大量的免费信息,如何理解数据、从中抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节,我们还需要合理的展示数据、交流和利用数据。我确实认为,能够从数据分析中领悟到有价值信息是非常重要的。职业经理人尤其需要能够合理使用和理解自己部门产生的数据。
——MaKinsey Quarterly, 谷歌首席经济学家,2009年1月

何谓机器学习

简单地说,机器学习就是把无序的数据转换成有用的信息。

学习机器学习需要哪些基础

  1. 计算机科学
  2. 统计学
  3. 数学等

机器学习的分类

  1. 监督学习

在监督学习过程中,我们只需要给定输入样本集,机器就可以推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需要从输入数据中预测合适的模型,并从中计算出目标变量的结果。之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息

根据目标变量的类型,可以再将监督学习分为分类回归

-分类
适用于标称型目标变量,标称型目标变量的结果只有在有限目标集中取值,如上图中的文艺青年和普通青年,也就是说目标变量是离散的。


分类.jpg

-回归
适用于数值型目标变量,数值型目标变量的结果只有在无线目标集中取值,如{0,0.01,0.02,0.03,.....},也就是说目标变量是连续的,如下图的数据曲线拟合就是回归的一个例子。


回归.png
  1. 无监督学习

与监督学习相对应的是无监督学习,此时不会给出目标值,根据应用程度不同,无监督学习可以分为聚类密度估计

-聚类
将数据集合分成类似的对象组成的多个类的过程称为聚类。

-密度估计
密度估计除了完成聚类所要完成的目标之外,还要估计测试数据与每个分组的相似程度。

例如,给定10000个人的样本数据,利用无监督学习算法将这10000个人进行分类,这个就是聚类,而如果要计算你是属于哪个group,并计算相似程度这就是密度估计。

如何选择合适的算法?

根据前面的描述,那么问题来了,如果给你一个问题,你改如何选择算法呢?是使用监督学习算法还是无监督学习算法?是使用分类问题?回归问题?聚类问题?还是密度估计问题?具体选择依据如下图所示,但是我们只能在一定程度上缩小算法的选择范围,哪种算法最优还需要不断尝试


如何选择合适的算法.png

如何选择合适的算法?

如下图所示。

开发机器学习应用程序步骤.png

机器学习入门阶段自学路线

  1. 《机器学习实战》
    书中主要讲了数据挖掘的十大算法,如C4.5决策树、K-means聚类算法、支持向量机(SVM)、Apriori、最大期望算法(EM)、AdaBoost算法,kNN算法 、朴素贝叶斯算法等等。个人认为这本书非常适合入门,没有很多的数学知识,但是比较实用。看完这本书,至少能吹吹水了,而不用每次同学谈论SVM等都一脸懵逼。
  2. Coursera上的吴恩达的机器学习公开课
    最近的课程五月中旬就开始了,建议完成所有作业,最好能全部拿满分。
  3. 一些网上入门的建议
    机器学习入门者学习指南(经验分享)
    机器学习该怎么入门?
    机器学习自学指南
    机器学习的最佳入门学习资源
    机器学习经典书籍
    机器学习入门书单


转自shareLin:http://www.jianshu.com/p/777f68802119
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值