20190417 笔记

XXX只是一道门,它向你打开,但你能走多远,要看你自己能锻炼出怎样的能力。至于混日子的,只把年龄混大了,能力没有提升,那么人生的道路会越来越窄,也丧失了最好的学习机会。所以,如果你不喜欢XXX,你一定要尽快换,尽快找到自己喜欢的事情,找到一件值得自己去投入的事情,至少你不会浪费自己的生命。

  1. 有一个google工程师Carol关于LSTM的公开课,不涉及公式推导,重在理解。很棒。here
  2. mark一本书:
    21个项目玩转深度学习 : 基于TensorFlow的实践详解
  3. Kaldi的研发者和维护者,Dan Povey的主页:here
  4. 知乎,语音识别工具Kaldi应该如何学习:here
  5. 首先先确定访谈会不会有同时说话的这种情况,如果有需要加语音分离,目前2个或3个个人在这种比较封闭环境效果还是很好的,具体看interspeech2016或icassp2017的多说话人语音分离论文。然后如果没有重叠的话,应该叫说话人追踪探测的技术。这个不是很清楚(是不是语音分割技术?),只有两三个人的话,应该是先根据访谈者训简单的识别模型,或者只提Ivector做均值估计也效果不错。当然也可以做通用的说话人识别模型,对于新的访谈者只需要几句话就可以注册一个说话人模型。最后感觉场景应该是分离完了做识别,这样比较完美,识别就不说了。开源的工具的话,kaldi中语音分离,说话人识别,语音识别都有,探测追踪不清楚。
  6. 想学习特征提取的话,好好研究并实现一下MFCC, 可以参考一些开源的实现,github有,当然也可以参考HTK或者kaldi的源码,kaldi的源码还是逻辑比较清晰的。如果只是想用的话,用 HTK 或者 kaldi 都可以,kaldi有工具可以直接用。补充:python提取mfcc特征的话,sidekit,librosa 都比较好用,opensmile也可以吧。
  7. 声纹识别算法有哪几种?
    谢邀,最近时间比较紧,现在还经常用的有gmm-ubm,ivevtor-plda,deep feature,bottleneck feature 还有一些d-vector对数据量要求比较大的,主流的还是用tf.nn去提取特征
  8. 你是如何走出科研的低谷的?
    可能还是自己水平不够,多读最新的paper,也要读之前的paper,会发现自己好多方法都还没有试验过,说不定结果会变好呢
  9. DTW做孤立词识别效果还可以,当然也主要用于孤立词识别,解决时序不匹配的问题
  10. MFCC的一阶差分和二阶差分描述了声音的什么特征?
    在时频图中,一般取元音的第一共振峰F1和第二共振峰F2作为两条基线,只对于元音来说没必要加查分,只通过元音舌位图就可以识别,但是其他的音就不一样了,比如ba,开口程度越来越大,F1增大,舌位逐渐往前,F2逐渐变大,F2增大,所以ba(自己张嘴发音感受一下)这个音就在时频图a的两条基线的左边都有一个上升的一段,而这个上升段的切线就是一阶差分,切线的变化幅度就是二阶差分,一般二阶差分的影响不是很大,可以先去研究一下元音舌位图,这些东西没有老师教,自己看确实很难懂
  11. 强调一下,现在语音识别都是一句话一句话的识别,或者是短对话的识别,还没有长段文字的识别,主要是很少有这方面的需求。你想像一下你一次性的给服务器传几百兆的语音,传输时间长,内存占用大,服务器得先切割成一句一句的识别出来一块返回给你,整个过程可能需要几十秒,然后每句之间还得纠错,句与句之间还得纠错,技术难度也很大,也很影响用户体验。总之还是没有很大的需求,毕竟这个是耗时耗带宽耗机器而不讨好的事情。
  12. 以上部分来自:
    作者:jinming
    链接:https://www.zhihu.com/question/30687224/answer/128044139
    来源:知乎

http://www.sohu.com/a/242581131_376226
微信声纹解锁的前世因果 ,很有趣的一篇文章

基于Kaldi的LSTM语音识别工具-Eesen(转载)
https://github.com/srvk/eesen

Eesen是将现有复杂的专业知识密集型ASR流程简化为直接的序列学习问题。Eesen的声学建模涉及训练单个循环神经网络(RNN)来建模从语音到文本的映射。埃森放弃现有ASR管道所需的以下要素:
隐马尔可夫模型(HMM)
高斯混合模型(GMM)
决策树和语音问题
字典,如果使用字符作为建模单位

Eesen被创造亚吉·米从灵感Kaldi工具包。

关键组件
Eesen包含4个关键组件来实现端对端ASR:
声学模型 - 具有LSTM单位的双向RNN。
训练- 联结时间分类(CTC)作为训练目标。
WFST解码 - 基于加权有限状态传感器(WFST)的原则解码方法,或
RNN-LM解码 - 基于(字符)RNN语言模型进行解码,当使用Tensorflow(目前为其自己的分支)
Eesen的亮点

基于WFST的解码方法可以将词典和语言模型以有效和高效的方式融入CTC解码。
RNN-LM解码方法不需要固定的词典。
GPU执行LSTM模型训练和CTC学习,现在也使用Tensorflow。
完全成熟的示例设置来演示端到端系统构建,以音符和字符为标签,遵循Kaldi配方和惯例。

书籍介绍:
Speech and Language Processing:
斯坦福大学教授 Dan Jurafsky 与科罗拉多大学波德分校 James H. Martin 教授共同撰写的《Speech and Language Processing》,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。本书不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,对于自然语言处理相关领域的研究人员和技术人员也是不可或缺的权威参考书。
【哪些更新?】重点重写并完成了5, 6, 7, 8, 17, 18, 19, 23, 24, 25这些章节,以及第9章的草稿。神经网络及其训练的新教学序列,从逻辑回归开始,接着是嵌入、前馈网络和RNNs。加上新的或改进的BPE, tf-idf,嵌入中的偏置,波束搜索解码,HMMs,内涵框架,词汇归纳,阅读理解/问答。有些章节已移至附录中。更新了第6章和第25章的ppt。

Dan Jurafsky 与 James Martin 所著的《 Speechand Language Processing》一书,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。中译本为教育部语言文字应用研究所研究员冯志伟翻译的《 自然语言处理综论》。图书全面系统地介绍了计算机自然语言处理。全书分为5个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、语法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术

4.15号周一
今天发现了SIRAJ RAVAL的github主页和b站的视频列表,感谢youtube的搬运工们。他很活跃,出了很多有关深度学习的视频教程,其中也有音乐相关的。对于视频没有英文字幕的问题,可以用讯飞听见。

4.16号周二
今天才知道,吴恩达老师的两个很有名的课程,机器学习和深度学习,都已经被黄海广博士的团队翻译整理好了。里面不仅有字幕的中英文翻译,还有示例和作业的代码,还有数学基础知识准备。真实良心团队啊。视频可以在网易云课堂看,笔记可以在黄博士的github下载,伸手党要感动的哭了。黄博士的github也有著名的李航的统计学习方法的代码实现。
黄博士的github地址:here

flayai竞赛平台可以尝试下:添加链接描述

会议介绍:
语音领域好像就只有icassp和interspeech两个主要的会

  1. ICASSP(英文全称International Conference on Acoustics, Speech and Signal Processing)即国际声学、语音与信号处理会议,是全世界最大的,也是最全面的信号处理及其应用方面的顶级会议。作为IEEE(电子技术与信息科学工程师协会)的一个重要会议,ICASSP除了有几十年历史外,其论文还经常被三大检索工具检索。因此,ICASSP对于信号处理方面的学术人士有着重要意义。它涵盖了音频和声学信号处理,图像、视频和多维信号处理,物联网的信号处理等至少十六个方向。
  2. Interspeech是由国际语音通信协会ISCA(InternationalSpeech Communication Association)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加
  3. 2019ICASSP举办地点和时间,国际声学、语音和信号处理会议
    还是IEEE举办的会议。
    举办时间:5月12日-17日
    举办地点:英国布莱顿
    截稿时间:2月18日
    H5指数:79
    官网:https://2019.ieeeicassp.org/
    推特@IEEE ICASSP 2019:https://twitter.com/icassp2019
  4. interspeech2019
    Graz, Austria奥地利格拉茨
    9.15–19号
    下面是interspeech2018的网址,2019的网址真的就是改个数字啦~~
    http://interspeech2018.org/
  5. ISMIR:international conference on music information retrieval国际音乐信息检索,主页:http://www.ismir.net/
  6. ICMR : ACM International Conference on Multimedia Retrieval
  7. SLT : IEEE Spoken Language Technology Workshop
  8. 科普:论文上附有的 arXiv 是干嘛的 here

名词介绍:
elsevier,爱思唯尔是一家荷兰的国际化多媒体出版集团,《柳叶刀》,《cell》等很有名的期刊就是这个公司旗下的品牌。EXPERT SYSTEMS WITH APPLICATIONS 也是其中一个很有名的期刊。

SCI:美国《科学引文索引》(Science Citation Index, 简称 SCI )于1957 年由美国科学信息研究所(Institute for Scientific Information, 简称 ISI)在美国费城创办,是由美国科学信息研究所(ISI)1961 年创办出版的引文数据库。SCI(科学引文索引)、EI(工程索引)、ISTP(科技会议录索引)是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,其中以 SCI 最为重要。划重点:引文数据库,科技文献检索系统。

下面这个链接真全啊!!!
语音识别相关会议期刊、研究机构、工具包、主页博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值