机器学习与深度学习的区别与联系(科普)

公司经理老王下发了两项任务,让员工完成:
1.有数据集A和B,数据集A有数万篇文章和每篇文章的摘要,数据集B只有数万篇文章但没有每篇文章的摘要,要求生成B中每篇文章的对应摘要,以便老王迅速处理公司文件。
2.有数据集A和B,数据集A有数万用户信息和这些用户的分类编号,数据集B只有数万用户信息,要求对B中的数万用户进行分类,以便公司满足不同类客户的需求。

机器学习简介:

公司大神老李看到任务后,试图从两个任务的数据集A中发现规律,然后将这些发现的规律用到数据集B上来完成任务,经过日夜探索,老李探寻到了一些蛛丝马迹。
任务1:老李发现了一个套路{对数据集A中的任意一篇文章,将该文章中的任意两个句子之间的关系用一个数值表示(例如通过关键字把句子表示成向量,求向量夹角),然后再把这些关系数值构成的矩阵丢到PageRank算法中,PR分数高的句子和摘要非常相近},于是老李宣布完成了任务1,用这个套路可以在B上生成摘要,也可以对其他任意文章生成摘要。
任务2:老李也发现了一个套路{将数据集A中每个用户信息量化成一个向量,将向量末点花在空间中,然后根据A提供的用户分类染色,一类一种颜色,结果惊奇地发现,挨得近的点恰好颜色相同,也就是说把用户信息量化成向量,向量末点挨得近的就是一类用户},于是在数据集B上,老李用同样的方法把用户信息量化成向量,然后去找哪些向量末点挨得近就算做一类(K-Means聚类算法)。

深度学习简介:

公司小王很有手段但很散漫,他不想像老李那样盯着数据集A去发现规律,于是他做了两个模拟大脑,两个大脑的结构是不同的,这两个大脑里面有很多参数,这些参数可以帮助大脑做出判断,但刚开始的时候,小王很懒,随便给这些参数定了一些值。
任务1:大脑1的输入就是文章,输出就是文章的摘要。
任务2:大脑2的输入就是用户信息,输出就是他们的分类。
两个大脑刚开始参数都是乱的,因此碰到这些任务的输出都是混乱的,但小王设置两个大脑根据数据集A去学习。
大脑1刚开始读入了数据集A中一篇文章,输出了一堆胡言乱语,大脑1自己去看了一下数据集A中该篇文章的摘要发现差距很大,于是自己调整了一下大脑内部的参数,接着读下一篇文章输出摘要发现差距还是很大,于是再次调整,直到大脑1觉得自己的输出和数据集A中该篇文章的摘要差距不大后停止。小王宣布完成了任务,把这个大脑1交给公司,大脑1可以输出任意文章的摘要。
大脑2同理。
注意小王做的是,设置大脑1,2的结构,确定大脑输入输出。

机器学习与深度学习:

公司员工开始使用老李或小王的方法。
站老李的员工说,跟大神老李一样去直接发现规律可太难了,我们直接用老李给的套路就好了。但是这些员工遇到其他的问题后,只能等待大神老李提供套路。
站小王的员工说,直接用小王的大脑模型很简单,但是自己再训练一个大脑好像也不难。于是这些员工遇到其他问题后,自己修改大脑的结构和输入输出,自己开始训练大脑解决其他问题,但大脑的结构和输入输出设置真的也很难。

从非深度学习的方法到深度学习(DL)的方法,我并不认为机器学习真的变得比较简单,而是我们把一个问题转化成另一个问题,本来不是Deep的Model,我们要得到好的结果,你往往需要做feature engineering,也就是做feature transform,然后找一组好的feature,但是如果今天是做DL的时候,你往往不需要找到一个好的feature,比如影像辨识,你可以直接把pixel丢进去,过去做影像辨识的时候,你需要对影像抽取一些feature,抽一些人定的feature,这件事情就是feature transform,但是有DL后你可以直接丢pixel硬做,但是今天的DL制造了一个新的问题,你需要去design network(大脑)的structure,就你的问题变成本来抽feature,转化成怎么design network structure,那DL是不是好用就depend on 哪一个问题比较容易,我个人觉得如果是语音辨识或者是影像辨识的话,design network structure可能比feature engineering容易,因为虽然说我们人工会看会听,但是这件事情它太过潜意识了,它离我们的意识的层次太远,我们其实不知道我们无法意识到,我们到底是怎么做语音辨识这件事情,所以对人来说你要抽一组好的feature,让机器可以很方便的用linear的方法做语音辨识,这件事对人来说很难,因为根本不知道好的feature长什么样子,所以还不如design一个network structure,让machine自己去找出好的feature,这件事情反而变得比较容易。
有一个说法,DL在NLP上面,觉得performance没有那么好,如果你看语音辨识跟影像辨识的文献,语音和影像辨识这两个community是最早开始用DL的,如果是NLP的话,你就会觉得,他的进步量没有那么惊人,甚至很多NLP的人,现在仍然认为说DL不见得那么work,我自己的猜想是,人在做NLP这件事情文字处理来说人是比较强的,叫你设计一个rule detect说一篇document它是正面情绪的还是负面情绪的,你可以说我就列表,列一些正面情绪和负面兴趣的词汇,然后看这个document里面正面情绪的词汇出现百分之多少,你可能就得到一个不错的结果,NLP这个task对人来说,你比较容易设计rule。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值