尚歌-CSDN博客

原创语音论文:用于端到端语音识别的简化完全量化的Transformer模型

论文题目 A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION摘要讲了近些年来，端到端语音识别性能方面取得了重大改进，但缺点是不适应与边缘设备上的嵌入式使用。在本文中，我们在基于简化和压缩的Transformer模型上进行语音识别，本文通过调查抛弃特定模块的影响来引入更加紧凑的speech-transformer。此外，本文评估了降低我们网络权重...

2021-04-04 16:55:55 2103

原创使用Docker 搭建 GitLab中文版--1

目录系统环境步骤安装docker系统环境Ubuntu docker (Docker version 19.03.12, build 48a66213fe) docker-compose步骤1.安装docker1.在一个新的宿主机安装docker之前先设置docker的仓库$ sudo apt-get update $ sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ g

2021-04-03 16:16:35 921

原创语音方向论文阅读

1.Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts摘要面对中英文混合数据稀疏性问题，提出Bi-Encoder Transformer network以及加入gating network进行语种判定模型结构实验结果...

2021-10-08 21:50:23 556

原创语音方向论文阅读

1.Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition摘要模型结构实验结果BABELAishell-1结论利用BERT预训练模型来做语音识别，引入嵌入注意模块将声学信息融入到bert，促进表征学习...

2021-09-30 16:25:03 448

原创音频数据增强

引言尽管调整模型架构和超参数是一个搭建完美模型的成功因素，数据科学往往需要关注数据。无论你搭建的模型多么amazing，但是GIGO（garbage in,garbage out）必须是我们需要考虑的。同时，在实际的数据工程中，数据的缺乏往往是一个很常见的问题。数据增强方法可以通过已有的数据来产生相似的数据，从而提高模型的鲁棒性和泛华能力。本文旨在介绍一些论文的语音增强方法，语音增强工具。数据增强常规增强方法1参考文献：https://blog.csdn.net/wudibaba21

2021-08-17 11:28:34 4078

原创 Python实现K-means聚类算法

K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集，该算法试图将数据划分为聚类，使得聚类内部具有较高的相似性，聚类与聚类之间具有较低的相似性。算法原理1. 初始化聚类中心，或者在输入数据范围内随机选择，或者使用一些现有的训练样本(推荐)2. 直到收敛将每个数据点分配到最近的聚类。点与聚类中心之间的距离是通过欧几里德距离测量得到的。通过将聚类中心的当前估计值设置为属于该聚类的所有实例的平均值，来更新它们的当前估计值。目标函数聚类算法的

2021-08-14 20:25:27 14708 4

原创 Python并发编程

多线程：threading,利用CPU和IO可以通知执行的原理，让CPU不再干巴巴等待IO完成多进程：multiprocessing,利用多核CPU的能力，真正的并行执行任务。异步IO：asyncio，在单线程利用CPU和IO同时执行的原理，实现函数异步执行使用Lock对资源加锁，防止冲突访问使用Queue实现不同线程/进程之间的数据通信，实现生产者，消费者模式使用线程池Pool/进程池Pool，简化线程/进程的任务提交、等待结束、获取结果实现subprocess启动外部程序的进程，

2021-07-25 17:04:33 257 2

原创语音论文阅读:U2

摘要提出一种双路方法将流式和非流式端到端语音识别模型统一到一个模型中，模型采用混合CTC/attention架构，其中encoder中的conformer结构被修改w

2021-05-31 16:42:36 961 1

转载语音识别中的WFST和语言模型

导读在语音识别系统中，有限加权状态转换机（Weighted Finite State Transducers, WFST）扮演着重要角色。本文主要介绍发音词典、语言模型和WFST的原理，以及在实践过程中的一些优化方法。背景目前的实际场景中的语音识别系统更多是基于HMM的传统语音识别框架，如：DNN-HMM，这种框架是由声学模型、发音词典、语言模型和解码器构成的pipeline结构，其中声学模型建模粒度为比音素还小的三音素状态，而语言模型和WFST在其中扮演着重要的角色。本文将主要围绕三个问题

2021-05-10 11:42:34 2223

原创语音论文阅读:使用无监督的预训练改善基于Transformer的语音识别

摘要语音识别技术在各种工业应用中取得了巨大的普及。然而，建立良好的语音识别系统通常需要大量的转录数据，这是昂贵的收集。为了解决这个问题，提出了一种被称为掩蔽预测编码的无监督的预训练方法，其可以应用于与基于Transformer的模型的无监督预传真预测。 HKUST的实验表明，使用相同的训练数据，我们可以实现23.3％，超过最佳端到端模型超过0.2％的绝对CER。通过更多的预训练数据，我们可以进一步将CER降低到21.0％，或相对CER减少11.8％的基线。引言及相关工作最近，无监督的预训练已经显

2021-05-05 14:32:18 699

原创语音论文阅读TINY TRANSDUCER: A HIGHLY-EFFICIENT SPEECH RECOGNITION MODEL ON EDGE DEVICES

摘要本文提出了一种极其轻质的通信连接换能器模型，在边缘设备上具有微小解码图。首先，首先使用基于空白标签跳跃的电话同步解码（PSD）算法来加速换能器解码过程。然后，为了减少高空白得分引入的删除误差，提出了一个空白标签脱模方法。为了降低参数和计算，在换能器编码器中使用深馈通顺序存储器网络（DFSMN）层，并采用基于CNN的无状态预测器。 SVD技术进一步压缩模型。基于WFST的解码图采用上下文 - 独立的（CI）音素，后断作为输入，并允许我们灵活地偏置用户特定信息。最好在使用SVD之后模型参数只有0.9M,

2021-04-19 17:24:15 407

转载第三代语音识别技术初探

全国声学大会语言声学分论坛上的现场报告知识总结原文地址

2021-04-10 12:48:25 419 1

转载语音识别基础

语音识别架构组成基础概念自动语音识别（Automatic Speech Recognition，ASR）技术是一种将人的语音转换为文本的技术。这项技术被当做是可以使人与人、人与机器更顺畅交流的桥梁，已经在研究领域活跃了50多年。系统分类研究领域分类识别任务分类应用帮助人与人的交流 HHC：应用场景如，如翻译系统，微信沟通中的语音转文字，语音输入等功能。语音到语音（speech-to-speech，S2S）翻译系统，可以整合到像Skype这样的交流工具中，实现自由的

2021-04-09 17:28:33 1411

原创 CTC相关知识

简介在语音识别中，我们的数据集是音频文件和其对应的文本，不幸的是，音频文件和文本很难再单词的单位上对齐。除了语言识别，在OCR，机器翻译中，都存在类似的Sequence to Sequence结构，同样也需要在预处理操作时进行对齐，但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时，由于人的语速的不同，或者字符间距离的不同，导致模型很难收敛。CTC(Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式，是非常适合语音识别或者O

2021-04-07 18:17:14 689

原创 EESEN:使用深RNN模型和基于WFST的解码进行端到端语音识别

论文： EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING摘要文本提出了Eesen框架，该框架极大地简化了构建最优ASR系统的流程。声学建模包括使用RNN学习预测上下文无关目标(音素或字符),为了消除预先生成的帧标签的需求，本文采用了CTC目标函数来推断语音和标签序列之前的对齐方式。Eesen一个显著特征是基于加权有限状态转换机(WFST)解码方式，该方法可将词典和...

2021-03-14 21:21:21 1067

原创使用Sinc卷积从原始音频数据进行轻量级的端到端语音识别

论文：Lightweight End-to-End Speech Recognition from Raw Audio Data Using Sinc-Convolutions摘要：许多端到端自动语音识别（ASR）系统仍依赖于经过预处理的频域特征，这些特征是手工制作的以模仿人类的听力。集成可学习特征提取的最新进展推动了我们的工作。为此，文本提出了将Sinc卷积与深度卷积相结合的轻型Sinc卷积（LSC），作为端到端ASR系统的低参数机器学习特征提取。本文将LSC(轻型Sinc卷积)融合进C.

2021-03-10 15:06:58 1202

原创用于端到端语音识别的文本数据多任务训练

论文 CIF: CONTINUOUS INTEGRATE-AND-FIRE FOR END-TO-END SPEECH RECOGNITION摘要提出一个新颖的软单调对齐机制，它受尖峰神经网络中的“积分并发射”模型的启发，并在编码器-解码器框架中使用，它由连续函数组成，因此被称为：连续积分并发射（CIF）。 CIF应用于ASR任务，不仅显示简洁的计算，还支持在线识别和声边界定位，因此适用于各种ASR场景。还提出了几种支持策略来缓解基于CIF模型的独特问题引言...

2021-03-04 15:45:36 912

转载 MFCC/HMM/GMM/EM/LM基本知识

语音识别的基本流程语音的识别对于人类来说是很自然的一个过程，但要让机器“听懂”却十分困难。一段音频文件，机器怎么才能知道它代表的是什么意思呢？语音识别要做的事，就是组CP：根据音频文件来判断对应的文本。当然，要让机器真正的“听懂”和“理解”，还涉及到很多其他的知识，语音识别只是其中一个环节。那么机器接收到左边这段语音之后，是怎么把它一口口吞下去，最后吐出来一个“two”呢？下图中，我们以最经典的基于GMM-HMM的语音识别框架为例，可以看到，经过数据准备、特征提取、训练、再到解码，就可以获取最终

2021-01-23 21:55:04 1903

原创 ffmpeg相关操作总结

0.FFmpeg 库及其作用libavcodec：提供了一系列编码器的实现。 libavformat：实现了流协议、容器格式和基础的 IO 访问。 libavutil：包括了哈希器、解码器和各种工具函数。 libavfilter：提供了各种音视频过滤器。 libavdevice：提供了访问捕获设备和回放设备的接口。 libswresample：实现了混音和重采样。 libswscale：实现了色彩转换和缩放功能。1.改变采样率,音频格式转换将.mp3转为采样率为16000,通道数为1,

2021-01-23 21:38:29 299

原创 NLP论文阅读(通过义元信息增强的Transformer)

论文 Enhancing Transformer with Sememe Knowledge摘要向Transformer模型中引进了义元知识，并提出三种基于义元信息增强的Transformer模型，根据语言定义，义位是语言的最小语义单位，可以很好地表示单词背后的隐含语义在Transformer中引入义元知识可以持续改善语言模型和下游任务，对抗测试显示义元信息可以提高模型健壮性引言自我监督的预训练显着提高了Transformer（V aswani等人，...

2021-01-21 15:50:10 420

原创论文阅读(通用CNN和RNN建模的经验评估)

论文 An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling摘要最近的一些研究表明卷积神经网络在像语音合成以及机器翻译的任务上超过了循环神经网络。给定一个新的序列建模任务或者数据集，应该选用哪种架构，简单的卷积体系结构在各种任务和数据集上的表现优于常规递归网络（如LSTM），同时表现出更长的有效内存。我们得出结论，应该重新考虑序列建模与递归网络之间...

2021-01-15 20:06:14 601

原创语音论文阅读(基于Transformer的在线CTC/Attention 端到端语音识别架构)

论文: TRANSFORMER-BASED ONLINE CTC/ATTENTION END-TO-END SPEECH RECOGNITION ARCHITECTURE摘要最近，Transformer在自动语音识别领域获的了成功。为在线语音识别部署端到端模型是一种挑战，提出在线基于Transformer的CTC/Attention ASR体系结构，该体系包含自我编码器(SAE），截断注意力(MTA),和自我注意力解码器(SAD），我们根据科大的普通话ASR基准评估了在线...

2021-01-12 19:22:04 3725 1

原创语音论文阅读(端到端ASR:从监督学习到具有现代体系结构的半监督学习)

论文： END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED LEARNING WITH MODERN ARCHITECTURES摘要利用伪标签(pseudo-labeling）ResNet,ConvNets,Transformers,使用CTC或者Seq2Seq损失函数，但半监督可改善整个体系结构和损耗函数中的所有模型，并弥合它们之间的许多性能差距。研究不同数量的未标记音频的效果，提出了几种评估未标记音频特性的方法，这些方法可以...

2021-01-04 11:09:43 807

原创语音论文阅读(大规模数据集上的语音增强）

论文 SPECAUGMENT ON LARGE SCALE DATASETS摘要语音增强是一种直接作用在输入话语声谱图上的自动语音增强方法，实践证明在端到端网络上非常有效，训练声学模型使用语音增强的数据和噪音扰动的训练数据，介绍了SpecAugment的一种修改，根据发音的长度调整了时间掩码的大小和多重性，通过自适应掩盖可以将LAS模型在Librispeech上进一步提升引言介绍了之前的一篇时域频域掩盖语音增强论文效果不错，不同语音增强方法在Google Multidom...

2020-12-31 13:43:42 900

原创语音论文阅读(用于自动语言识别的改进的噪声学生训练)

论文： Improved Noisy Student Training for Automatic Speech Recognition摘要：将“noisy student training”这种半监督学习方法应用到语音领域，采用语音增强SpecAugment 来适应和改进这种半监督方法。在LibriSpeech数据集上的效果非常明显，使用100h作为监督训练，其余剩下的作为无监督训练，就能在测试集上获得4.2%/8.6%的WER,加大无监督训练数据集，可以获...

2020-12-30 20:30:50 443

原创语音论文阅读(用于SOTA语音识别的多流CNN和自专注SRU)

论文： ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition摘要：两种新颖的神经网络架构Multistream CNN(声学模型),slef-Attentive SRU(语言模型),在混合ASR框架中，多流CNN声学模型在多个并行管线中处理语音帧的输入，其中每个流具有唯一的扩容速率以实现分集,使用一些数据增强的方法训练，在Librispeech数据集test-...

2020-12-23 20:30:31 781

原创语音论文阅读(CTC以及预测掩码的非自回归端到端语音识别）

论文： Mask CTC: Non-Autoregressive End-to-End ASR with CTC and Mask Predict摘要：提出了MASK CTC(一种新型非自回归端到端语音识别框架)，自回归(Autoregressive Translation , ART)模型需要用已生成的词来预测下一个位置的词，代价比较大，非自回归模型可以在恒定的迭代次数内同时生成标记，推理时间明显减少，本论文MASK CTC 是基于Transformer，预测屏蔽以及CTC联...

2020-12-23 10:55:30 1825

原创 INTERSPEECH 2020 技术交流会笔记

1.微软报告题目:构建工业级流式端到端语音识别模型主流端到端模型： Transducer S2SAttention mechanism 无有搭建组件 ...

2020-12-20 14:14:37 437

原创基于Transformer的语音合成

论文： Neural Speech Synthesis with Transformer Network摘要：尽管端到端神经网络text-to-speech Tacotron2实现了state of the art performance 表现，但存在两个问题，1.在训练和推理过程的低效率，2. 难以使用当前的递归神经网络（RNN）对长期依赖性进行建模。于是引用transformer中的多头注意力机制代替RNN,Transformer的语音合成模型比tac...

2020-12-14 16:53:29 1968

原创语音论文阅读(Conformer：基于卷积增强的Transformer语音识别模型)

论文： Conformer: Convolution-augmented Transformer for Speech Recognition摘要：讲了基于CNN和Transformer的语音识别模型表现比以RNN为基础的模型好，Transformer模型擅长捕获基于内容的全局交互，而CNN则有效地利用了局部特征。本文工作：我们通过研究如何结合卷积神经网络和Transformer到一个模型，以参数有效的方式对音频序列的局部和全局相依性进行建模，从而实现了两个方面...

2020-12-13 09:21:22 17278 7

原创语音论文阅读(流行的大规模语音识别端到端模型的比较）

论文： On the Comparison of Popular End-to-End Models for Large Scale SpeechRecognition(2020)大致内容：介绍了主流了端到端系统流式和非流式（RNN-T,RNN-AED,Transformer-AED）展示了AED模型在非流式中比RNN-T模型好，在流式中RNN-T更有竞争性 Transformer-AED是目前的主流，在流式和非流式上都可以实现最好的精确度展示目前的趋势是混合系统，将不同...

2020-12-11 09:23:24 958

转载端到端语音识别模型

端到端语音识别模型(原文地址）随着端到端神经网络在机器翻译、语音生成等方面的进展，端到端的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务（词汇模型，声学模型和语言模型），端到端的语音识别模型基于梅尔语谱作为输入，能够直接产生对应的自然语言文本，大大简化了模型的训练过程，从而越来越受到学术界和产业界的关注。本文将通过六篇论文，从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展，并探讨不同端到端语音识别模型的优缺点。 ...

2020-12-10 09:58:57 3207

原创音频预处理(数据增强方法总结)

离线处理：训练之前先对语音数据进行加噪音、调低\高音量、1.5倍速播放等（有人用工具audiomentations）,然后再提取MFCC特征到特征文件里（特征文件格式.h5,.csv），训练时数据集从特征文件读取，不需要再预处理了. 优点：只需提取特征一次就可以多次训练，时间减少很多；缺点：每个epoch喂入模型的数据特征都是一样的（提取到特征文件，其实特征就被写死了），变相的降低了数据集可增强的空间，模型泛化能力会降低；在线处理：对数据进行预处理，然后提取MFCC特征，最后喂入模...

2020-12-08 15:39:41 11244 7

原创 Ubuntu的一些操作

1.apt 更改source源1. 备份系统默认源sudo cp /etc/apt/sources.list /etc/apt/sources.list.old2. 更换源sudo vi /etc/apt/sources.list打开文档之后，可在下面的各种国内源中任选其一，我用的是阿里的源，然后复制粘贴，最后保存关闭。deb http://mirrors.aliyun.com/ubuntu/ xenial maindeb-src http://mirrors.a..

2020-12-05 19:30:30 102

原创 nvidia-smi 报错：显示无法与驱动通信

ubuntu系统重启后，分辨率突然变得很差，可能是显卡出现了问题使用nvidia-smi出现nvidia-smiNVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.使用nvcc _-V 显示驱动正常 nvcc -Vnvcc: NVIDIA (R) Cud

2020-12-05 14:45:24 717

原创机器人语音---走进优必选

听会笔记介绍了机器人语音技术部的关键技术包括前端的信号处理，语音识别ASR,自然语言处理，以及最后的语音合成TTS 机器人的多模态交互语音转换案例，可以通过20句话使语音合成变成目标人声音 ...

2020-11-26 21:43:48 345 1

原创 pytorch模型微调笔记

1.调整某一层参数有时候在运行过程中稍微改下模型的输入词大小，就会导致和原来模型不符的bug出现RuntimeError: Error(s) in loading state_dict for TransformerLanguageModel: size mismatch for output_project.weight: copying a param with shape torch.Size([4233, 320]) from checkpoint, the shape i

2020-11-26 13:46:23 2077

原创语音识别--kaldi笔记(2)

local/aishell_train_lms.sh || exit 1(语言模型训练)这个shell脚本读取data/local/train/text,data/local/dict/lexicon.txt得到text的计数文件word.counts并以word.counts为基础添加lexicon.txt中的字（除了SIL）出现的次数到unigram.counts中text=data/local/train/text #设置文本位置 BAC009S0002W0122 而对楼市成交 .

2020-11-25 21:03:48 557

原创 linux上非root用户安装个人包

安装特定版本cuda(借鉴链接）1.查看系统版本以及下载对应cudauname -a Linux bcm 3.10.0-957.1.3.el7.x86_64 #1 SMP Thu Nov 29 14:49:43 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux主要是观察是x86_64 还是ppc64Ie 还是sbsalsb_release -aLSB Version: :core-4.1-amd64:core-4.1-noarchDistributor

2020-11-24 22:44:02 479

原创语音识别--kaldi特征提取代码笔记(1)

脚本说明cmd.sh(配置运行方式，以及内存使用大小，使用gpu数量)#export train_cmd="queue.pl --mem 2G"#export decode_cmd="queue.pl --mem 4G"#export mkgraph_cmd="queue.pl --mem 8G"export train_cmd=run.plexport decode_cmd="run.pl --mem 4G"export mkgraph_cmd="run.pl --mem 8G"ex

2020-11-24 17:57:48 1213

C++实现贪吃蛇案例，实时

C++用类实现通讯录

矩阵的相关运算gui界面设计的

空空如也