一文搞懂无监督学习

本篇内容是吴恩达机器学习的第5篇——Unsupervised Learning

主要内容:

1)什么是无监督学习?

2)无监督学习的几个应用实例。

 

1 什么是无监督学习?

 

要理解无监督学习,还是要从监督学习过渡过来。

 

下图中的点明显分为两类,而且训练样本也明明白白的告诉我们它们要分成两类。

 

format,png

然后呢,我们的机器学习算法根据上面图中的训练样本得到下面图中的这样一条直线,以后再有新的x1、x2我们就可以对它进行分类了。

format,png

那如果训练样本是这样的呢?

format,png

上面这个图中的训练样本呢,它没有被打上标签(label),就是说我们只知道自变量(x1、x2),不知道因变量(Y),我们要让我们的机器学习算法自己去找规律。像这样的学习我们就称之为无监督学习。

 

对上面的例子,我们可以用类似密度聚类的算法将之聚类。

format,png

2 无监督学习的例子

 

对新闻网页的分类的例子。

 

以google新闻(或者头条新闻)为例,它们不怎么生产新闻,它们只是新闻的搬运工。那它们的爬取工具将网络上的新闻爬取回来之后呢,需要对爬取到的新闻进行分门别类然后才展现给用户。

 

每天可能有几十万条新闻需要被分门别类的展现,还要对这些新闻进行个性化推送,那这个事怎么做的呢?

 

以下面这样一个石油新闻为例,聚类器首先要对新闻文本进行分词,然后根据里面出现的关键词好比新闻来源(CNN)、里面有石油钻井平台的名称、石油泄漏等等的这样一些词,然后根据这些关键词再对这篇新闻稿进行聚类。

format,png

 

基因检测。

 

对于基因,每类人都有特定的基因。如果不告诉你任何其它信息,只是把一堆人的基因检测的数据扔给你,该怎样聚类呢?这就需要无监督学习的方法。

format,png

其它应用

 

无监督学习的应用场景还有很多,几乎所有的现代科学研究领域都有无监督学习的身影。

如下图所示的,服务器集群管理、社交网络的分析、客户价值分析等等。

format,png

 

一个特殊的问题,“鸡尾酒会”问题。

 

鸡尾酒会问题是非常著名的一个语音分离问题的场景描述,1953年就被提出来了。说的是,我们人的耳朵在鸡尾酒会上能够相对比较轻易的从嘈杂的环境中把我们感兴趣的谈话对象的语音分离出来。但是,机器能做到这件事情么?

 

对这个问题进一步进行抽象简化,如下图所示,双通道(两个麦克风)同时对两个说话者的声音进行采集然后再对它们进行分离,这就是语音分离问题;如果是再对这些说话者语音叠加上一些噪音,我们需要对噪音进行剔除,这就是语音增强的问题了。

format,png

那无监督学习怎么做这件事的呢?这是一个非常复杂的问题,如果用c++或者Java来写的话,要写好多好多代码,但是我们吴老师的课是用的Octava或者Matlab来实现的,只需要这样一行代码就可以了(老高没有验证了):

format,png

这说明,如果我们使用Octava或者matlab来学习机器学习的话会非常快。如果工作后,我们使用Octava或Matlab来快速的验证我们的算法原型,验证通过后我们再用C++或Java来重现以提高代码执行效率,会大大提高我们整个的开发效率。

 

练习

下面的问题中,哪些是无监督学习问题?

  • 给定一组被标记好垃圾邮件(非垃圾邮件)的邮件,学习构建一个垃圾邮件过滤器;

  • 从网上爬取很多新闻报道,然后对这些报道进行聚类;

  • 给定一组客户数据,然后按照客户价值进行分离;

  • 给定一组已知是否患有糖尿病的病人的数据,然后根据一个新的病人数据预测这个人是否患有糖尿病。

 

答案:第2、3是无监督学习的例子。

 


 

format,png

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值