机器学习第一周

1.引言
2.监督学习
3.无监督学习

目前存在几种不同类型的学习算法。主要的两种类型被我们称之为监督学习和无监督学习。监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。

一、监督学习
监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。
回归问题:
Eg.帮朋友卖房子,在充分数据集的基础下对散点数据进行拟合——直线和二次方程两种方法,得到了不同的结果。比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。房子价格本身是离散值,然而我们把它看成连续值。
回归这个词的意思是,我们在试着推测出这一系列连续值属性。
分类问题:
Eg.通过乳腺肿瘤的大小(tumor size)来判断良性(0)还是恶性(1)。还是有一定的数据集,然后根据这个来判断朋友乳腺肿瘤的良性恶性。估算其良性还是恶性的概率就是机器学习的问题。
分类指的是,我们试着推测出离散的输出值:0或1良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。

在一些问题中,很多时候不止仅仅需要考虑一个特征,比如肿瘤的良性恶性与否是多种因素决定的,包括年龄、肿瘤细胞的大小和形状的一致性等等,要考虑多个特征。
我们以后会讲一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。

这节课我们介绍了监督学习。其基本思想是,我们数据集中的每个样本都有相应的“正确答案”。
再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,之后我们介绍了分类问题,其目标是推出一组离散的结果。
自己总结:监督学习的基本思想;
其两类问题:回归问题、分类问题。它们的最大区别:要求的输出是连续性的输出结果(由连续性推导的)还是离散出的结果(x与y轴没有相关性关系)。

监督学习的小测验:
假设你经营着一家公司,你想开发学习算法来处理这两个问题:
1.你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你想预测接下来的三个月能卖多少件?
2.你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,你要判断它们是否曾经被盗过?
那这两个问题,它们属于分类问题、还是回归问题?

二、无监督学习
与监督学习的区别:监督学习的数据集是根据一些情况被标记过的,例如肿瘤是良性还是恶性,良性与恶性即被标记。在无监督学习中,数据集没有被标记(应该就是分类的意思,无差别),就是数据集本身而已,没有标签。
无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。
Eg1.聚类应用:在谷歌网站上,利用聚类应用,将海量的新闻进行分类,自动归为一类并且显示出来。
Eg2.聚类算法和无监督算法:输入不同个体的DNA,分析每个个体是否有一个特定的基因(基因的相似部分),并分类,然后按照不同的特定分为一组。(前提并不知道这个类别的名字是什么,而是仅仅按照分析基因的结果进行分类)——我们不知道这些无差别数据里面有什么、可以分为什么类别。就是说你要自动地聚类那些个体到各个类,我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据,所以这就是无监督学习。

无监督学习或聚集有着大量的应用。它用于组织大型计算机集群。聚类只是无监督学习中的一种。
Eg.鸡尾酒聚会中,有很多人在同时说话,放置两个麦克风在不同的位置,并分析出输出的总录音环境,将他们分开,分析出不同的人说出来的话在不同的麦克风中的输出。
当你使用正确的编程环境,许多学习算法是相当短的程序。
在用matlab这样的软件先搭建好原型后再移植到java或c++中会比直接用c++等实现的更快。
我们介绍了无监督学习,它是学习策略,交给算法大量的数据,并让算法为我们从数据中找出某种结构。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值