2020李宏毅学习笔记——12.Why deep?

由题目明白我这一章主要学的是个嘛?
why deep而不是why shallow
给个两组实验,第一组就是:,越深的神经网络,其参数越多,模型也就越复杂,当然能够拟合更为复杂的函数
第二组表明:单增加netural的数目,不增加layer时没办法提高准确率的。

1.为嘛,deep比shallow好?

1.1Modularization:魔主化
分层次,逐层解决各个小问题,不断深入。比如长头发女生,短女,长男,短男。魔主化是自动完成的,不需要我们人为决定第一层检测什么特征,第二层检测什么特征。这样每一次要干的事情变得简单后按刚才魔主化的思想,这个时候需要的training data会比较少。这里老师提出的观点是神经网络不一定需要big data才能训练好。
在这里插入图片描述
2.魔主化在语音识别的应用
语音识别的第一步
传统做法:算state是使用GMM(高斯混合模型Gaussian Mixture Model)来计算某个acousitc feature是属于哪个state,结果往往不太好,因为tri-phone的数目太多
在DNN之前,使用的是HMM-GMM方法(隐马尔可夫模型-高斯混合模型)来解决语音识别问题,思路如下:建立一个高斯分布的池,池中每个高斯分布都有自己的key,
DNN的做法
其实就和图像识别一样,看做是一个分类问题
关键的地方就是:所有的state都共用同一个DNN。

这一点厉害在什么地方??
传统做法中可以需要64个GMM来完成语音识别,这里只有一个DNN,是不是DNN参数比传统方法多所以效果好呢,和本节课开头所说的一一个道理,不是!老师有做过实验,DNN相当一个很大的model,GMM相当于很多很小的model,二者使用的参数数量其实差不多的。
有一个研究将DNN的一个隐藏层提取出来,把它的输出设置为2个dimension,然后输入一些acousitc feature输入后得到如下的输出:
这里的颜色对应上面的母音发音与舌头位置关系图中几个重要元音的发音(蓝色是i,红色是o,黑色是a,黄色是u),注意观察它们的位置也是相对应的,也就是说在DNN做语音识别的时候,他的隐藏层没有马上去判断acousitc feature属于哪个音素或哪个state,而是判断这个声音人类是如何发出来的(舌头位置),接下来的layer再根据这个结果来判断acousitc feature属于哪个音素或哪个state,这就是为什么这么多cousitc feature可以用同一个DNN来进行识别的原因。这里对应了前面的男女长短头发的魔主化的示例。
在这里插入图片描述

3.通用原理小结 Universality Theorem
任何连续的函数都可以用单层神经网络来表示(给定足够多的神经元),这个已经有证明,见花书第四章。
但是这个结论并没有说明的是:
在这里插入图片描述
语音的例子我没仔细听
如果你的hidden layer 只有一层的话,就没有办法把只是看着相似的东西,output一样,也没有办法把其实一样,只是不同角度的东西,output一样,

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值