论文笔记
ASR_THU
研究方向:语音处理
展开
-
Interspeech 2017论文总结
传送门: https://blog.csdn.net/zeroqiaoba/article/details/78160633今年的interspeech2017有两个section是关于情感的: Emotion Recognition 和 Emotion Modeling,共有12篇文章,best paper 提名的是关于多任务学习的文章。今年的interspeech主要是以多任务学习为主...转载 2018-10-05 17:36:50 · 1324 阅读 · 0 评论 -
[blog] Dissecting BERT Part 1: The Encoder 解析BERT解码器(transformer)
原文:https://medium.com/dissecting-bert/dissecting-bert-part-1-d3c3d495cdb3 A meaningful representation of the input, you mustencodeThis is Pa...翻译 2019-03-28 17:42:48 · 2195 阅读 · 0 评论 -
[blog] Transformer: A Novel Neural Network Architecture for Language Understanding
原文:https://ai.googleblog.com/2017/08/transformer-novel-neural-network.htmlNeural networks, in particularrecurrent neural networks(RNNs), are now at the core of the leading approaches to language...翻译 2019-03-28 15:51:10 · 992 阅读 · 0 评论 -
[blog] The Illustrated Transformer 2
part1:https://blog.csdn.net/zongza/article/details/88852461原文:https://jalammar.github.io/illustrated-transformer/The Beast With Many HeadsThe paper further refined the self-attention layer by ...翻译 2019-03-28 12:33:25 · 303 阅读 · 0 评论 -
[blog] The Illustrated Transformer 1
原文:https://jalammar.github.io/illustrated-transformer/part2:https://blog.csdn.net/zongza/article/details/88866476In theprevious post, we looked at Attention– a ubiquitous method in modern deep...翻译 2019-03-27 22:30:33 · 342 阅读 · 0 评论 -
[论文笔记] highway networks
主要介绍下面两篇论文《Deep Residual Learning for Image Recognition》. 2015. arXiv pre-print.《Training Very Deep Networks》.Neural Information Processing Systems (NIPS 2015 Spotlight).Deep Residual Learning ...转载 2019-03-20 11:16:09 · 1581 阅读 · 0 评论 -
[blog] Speech Recognition Is Not Solved 语音识别领域尚待解决的子问题
链接:https://awni.github.io/speech-recognition/Ever since Deep Learning hit the scene in speech recognition, word error rates have fallen dramatically. But despite articles you may have read, we sti...翻译 2019-03-04 15:58:44 · 1226 阅读 · 0 评论 -
[论文笔记] LPCNet: Realtime Neural Vocoder
简要介绍LPCNet 是一个 数字信号处理(DSP) 和 神经网络(NN)巧妙结合应用于语音合成中 vocoder 的工作,可以在普通的CPU上实时合成高质量语音。传统上,基于 DSP 的 vocoder 速度很快,但是合成的语音质量不是太好,而基于 NN 的 vocoder 语音质量更高,但通常复杂度太高,无法实时。背景和动机首先从语音产生机理的 source-filter 模型...转载 2019-02-28 16:04:22 · 7682 阅读 · 3 评论 -
[论文笔记] TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS
Tacotron:端到端语音合成摘要一个文本到语音的合成系统通常需要经过多个步骤的处理,比如前端文本分析,声学模型,以及音频合成模块。构建这些成分往往需要额外的领域知识并且也可能因此而做出一些经不起检验的设计。本文提出的Tacotron,是一种端到端,文本到语音的生成性模型,可以直接从音素字符信息中生成对应的音频。使用<文本,语音>对,模型可以直接使用随机初始化的参数进行训练,...原创 2019-01-02 17:46:04 · 2462 阅读 · 0 评论 -
[论文笔记] Phonetic posteriorgrams for many-to-one voice conversion without parallel data training
基于PHONETIC POSTERIORGRAMS和非并行数据的多对一语音转换摘要本文提出了一种利用非并行训练数据进行语音转换的新方法。该想法是通过从与说话者无关的自动语音识别(SI-ASR)系统获得的语音后验语音(PPG)来在扬声器之间建立桥接。我们假设这些PPG可以表示说话者标准化空间中的语音清晰度并且独立地对应于该段语音的source speaker。所提出的方法首先获得目标语音的P...原创 2019-01-04 12:08:15 · 4201 阅读 · 4 评论 -
[论文笔记] Detection of Glottal Closure Instants from Speech Signals: CNN Method
论文下载(带笔记和注释的版本): https://download.csdn.net/download/zongza/10698950关键词: glottal closure instants (声门闭合时刻) , pitch mark(基音标注), convolutional neural network(卷积神经网络), classification(分类) 零、基础概念小波变换...原创 2018-10-01 09:03:55 · 697 阅读 · 0 评论