ASR论文阅读
文章平均质量分 57
主要记录阅读论文
zx超
这个作者很懒,什么都没留下…
展开
-
k2相关文章
从上述实验中可以看出,RNN-T预测网络的作用和传统ASR的语言模型并不等同,预测网络的最大作用似乎是阻止输出重复的建模单元。同时,实验证明以子词为建模单元的带有无状态预测网络RNN-T(RNNT-SLP)和基线RNN-T相媲美,并且识别效果要远远好于CTC模型。这表明了将之前的输出作为输入对识别效果是有提升的,此外,至少对于中低资源的语种来说,RNN-T并不需要超过一个子词的历史来实现最优效果。RNNT-SLP在常规RNN-T的基础上有额外的优势:减少了模型总参数量,并简化了模型结构。原创 2024-03-12 17:41:31 · 401 阅读 · 0 评论 -
阿里-paraformer论文详解
转发:https://zhuanlan.zhihu.com/p/547497094论文:https://link.zhihu.com/?背景:近年来,随着端到端语音识别的流行,基于 Transformer 结构的语音识别系统逐渐成为了主流。然而,由于 Transformer 是一种自回归模型,需要逐个生成目标文字,计算复杂度随着目标文字数量而呈线性增加,限制了其在工业生产中的应用。转载 2024-03-12 17:12:00 · 168 阅读 · 1 评论 -
语音识别的相关期刊
语音识别相关期刊原创 2021-02-16 12:31:34 · 1022 阅读 · 0 评论 -
语音识别-置信度-las结构
(2)但是,我们使用置信度时候,通常去设置一个阈值P~来进行筛选正确的和不正确的,因此制定了三个指标precision和recall,AUC。在传统的基于hmm的系统中,通过从假设compact空间中计算单词的后x验概率,可以很容易地获得可靠的置信分数,egs:lattice, confusion networks;随着置信阈值的增加,常规系统的WER单调地减小。1.在token级别的上,asr的置信度分数被定义token正确的概率,如果识别器对输出token非常自信,那么相应的置信度分数应该接近于1。原创 2023-05-11 17:57:20 · 836 阅读 · 1 评论 -
TDNN时延神经网络---TDNN-F
1.TDNN时延神经网络转近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", “D”, "G"三个浊音中得到98.5%的准确率,高于HMM的93.7%。是CNN的先驱。普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅音"B", “D”, “G”,那么我们可以设计这样的神经网络:图1其中输入0-12代表每原创 2022-04-15 10:13:17 · 8388 阅读 · 0 评论 -
论文阅读《EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-T》
RNN-T转载 2022-04-08 22:53:28 · 159 阅读 · 0 评论 -
论文阅读《SEMI-SUPERVISED ASR BY END-TO-END SELF-TRAINING》
半监督语音识别转载 2022-04-08 22:41:14 · 159 阅读 · 0 评论 -
自训练和与预训练在语音识别中的互补
Self-training and Pre-training are Complementary for Speech Recognition自训练和与预训练在语音识别中的互补分析转载 2022-04-08 17:56:14 · 105 阅读 · 0 评论 -
RNA论文解读
原创 2022-03-06 21:28:04 · 215 阅读 · 0 评论 -
完美解释:wenet-流式与非流式语音识别统一模型
Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition流式与非流式语音识别统一模型-出门问问&西工大方案1.模型结构如下图所示,模型包含三个部分,分别为共享的Encoder、CTC解码器、Attention解码器,共享Encoder包含多层transformer或者conformer,CTC解码器为一个全连接层和一个softmax层,Attention解码器包含多层transfor原创 2021-12-22 21:04:40 · 16162 阅读 · 8 评论 -
语音识别论文汇总
Speech Recognition PapersStreaming ASRRNA basedRNN-T basedAttention basedUnified Streaming/Non-streaming modelsNon-autoregressive (NAR) ASRASR Rescoring / Spelling Correction (2-pass decoding)On-device ASRNoisy Student Training(Self Trainin..原创 2022-02-13 18:16:34 · 2856 阅读 · 0 评论