语音识别
hyxxxxxx
这个作者很懒,什么都没留下…
展开
-
kaldi study
Kaldikaldi语音识别流程1. 对数据进行预处理2. 对语音进行特征提取3. 声学模型4. 语言模型5. 解码功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图...转载 2019-07-11 16:00:36 · 277 阅读 · 0 评论 -
deepspeech 代码之解码
Decoder 在完成模型搭建之后先简单总结一下deepspeech所用的训练参数和模型选择Input 声学特征选择 归一化后的傅里叶变换 类似melDataLoader 选用BucketingSamplermodel conv1做特征提取 多重bn biGRU*5 FCoptimizer & loss momentum SGD & warpctc_loss &a...原创 2019-07-30 16:55:52 · 1156 阅读 · 0 评论 -
deepspeech2 代码之特征提取
特征工程CONTEXT读取wav制作频谱矩阵Dataset类Dataloader类data_loader.pySpectrogramDatasetBucketingSampler & DistributeBucketingSamplerAudioDataLoader1. 读取wavimport librosaimport scipy.io.wavfile...原创 2019-07-24 15:05:49 · 1969 阅读 · 0 评论 -
deepspeech2 代码之模型构建
模型构建模型整体框架如下图所示可以看到模型主要由以下几个部分构成:DeepSpeech modelMaskConvBatchRNNfcmodel = DeepSpeech(rnn_hidden_size=args.hidden_size, nb_layers=args.hidden_layers, ...原创 2019-07-29 12:19:56 · 2710 阅读 · 0 评论 -
DeepSpeech2 详解
论文题目: Deep Speech 2: End-to-End Speech Recognition in English and Mandarin论文地址: https://arxiv.org/pdf/1512.02595.pdftensorflow版本: https://github.com/mozilla/DeepSpeechpytorch版本: http://www.github....原创 2019-07-19 12:13:04 · 17396 阅读 · 7 评论 -
torch.nn.CTCLoss 与warpctc_pytoch.CTCLoss
1.torch.nn.CTCLossimport torchfrom torch.nn import CTCLosstorch.backends.cudnn.benchmark = TrueT = 50 # Input sequence lengthC = 20 # Number of classes (including blank)N = 16 # ...原创 2019-07-18 17:07:37 · 6116 阅读 · 0 评论 -
5分钟读完 kaldi-pytorch 论文
THE PYTORCH-KALDI SPEECH RECOGNITION TOOLKIT1. 论文解读本文讲述了一个开源的 pytorch与kaldi结合的工具论文地址 https://arxiv.org/pdf/1811.07453v2.pdfgithub地址 https://github.com/mravanelli/pytorch-kaldi所提供的解决方案专为标准机器和HPC集群...原创 2019-07-11 16:36:49 · 1371 阅读 · 1 评论 -
语音识别论文&前言
语音识别论文DFSMN alibaba 2018DATASET: Speech Recognition on LibriSpeech test-cleanRANKRANKRANKLAS + SpecAugment Google Brain 2019 WER 2.5github:SpecAugmentkaggle:Freesound Audio Tagging 2019rank1...原创 2019-07-11 13:39:48 · 1172 阅读 · 0 评论 -
语音识别(二)—数据处理
本节目标2.1 wav和label文件对应2.2 wav经过特征提取转换成频谱图 每个batch_size的图维度一致2.3 label中所有文字建立vocab 并将label中文字转换为vocab中的index 即token_2_index2.4 建立Dataset子类,并按照batch_size建立dataloader2.1建立wav与label文件列表def source_g...原创 2019-07-15 17:09:12 · 1508 阅读 · 2 评论 -
语音识别(一)—特征提取
0.数据集选择1.THCHS30 清华数据集 中文 6.7G2.librispeech 30G1. 特征提取1.1 读取数据 wav & librosaimport scipy.io.wavfile as wavimport matplotlib.pyplot as pltimport osimport librosaimport librosa.displayimpo...原创 2019-07-15 16:18:52 · 3903 阅读 · 0 评论 -
deepspeech2 代码之数据处理
以Librispeech为例step 1 下载数据集下载地址: http://www.openslr.org/12/下载文件step 2 解压文件tar -zxvf *.tar.gz ./此处可以不解压 代码中可以边解压边读取边删除 但是为了效率 这里选择先解压step 3 定义参数class parser(): def __init__(self): ...原创 2019-07-22 16:54:07 · 1678 阅读 · 0 评论