语音识别
文章平均质量分 89
@李思成
愿我们的青春如花般绽放。
个人邮箱li_sicheng@126.com
展开
-
常用语音识别开源工具的对比与实践
Wenet,espent,icefall,kaldi语音识别工具的对比与实践原创 2024-08-18 18:13:51 · 799 阅读 · 0 评论 -
新一代kaldi-icefall环境配置与aishell实践
代码来源:[[k2-fsa/icefall (github.com)](https://github.com/k2-fsa/icefall)](https://github.com/kaldi-asr/kaldi)官网文档:https://k2-fsa.github.io/icefall/原创 2024-08-18 12:50:22 · 257 阅读 · 0 评论 -
kaldi环境配置与aishell实践
如果某些库未安装,脚本会给出提示,你只需根据提示安装缺失的库即可。特别需要注意的是,Kaldi默认使用Intel MKL作为线性代数库。在编译Kaldi之前,需要检查和安装Kaldi依赖的系统开发库,包括g++、LLVM、Clang、zlib、python、gawk、perl、wget、git、libtool等。如果能够访问GitHub,ATLAS headers、OpenFst、SCTK、sph2pipe和CUB将会被自动下载、编译和安装。这是三个不同的语言模型工具,不同的示例使用不同的工具。原创 2024-08-11 18:10:39 · 458 阅读 · 0 评论 -
Espent环境配置与aishell实践
由于我使用的是服务器,无法生成链接,同wenet一样,将训练生成的tensorboard文件,拿到本机上运行查看效果。,设置GPU数量和使用的GPU编号。按照官网进行测试即可,注意。原创 2024-08-11 16:26:33 · 1053 阅读 · 0 评论 -
WeNet 2.0:更高效的端到端语音识别工具包
WeNet是一个开源的端到端语音识别工具包,WeNet 2.0在此基础上进行了四项主要更新,以提升其在生产环境中的适应性和性能。主要更新内容:U2++ 框架改进点:在原有U2框架的基础上增加了双向注意力解码器,通过右到左的注意力解码器引入未来上下文信息,提升了共享编码器的代表能力和重评分阶段的性能。性能提升:实验结果表明,U2++相较于原U2框架在多种语料库上的识别性能提升了10%。生产语言模型解决方案改进点。原创 2024-08-07 18:45:20 · 732 阅读 · 0 评论 -
Wenet代码分析:混合CTC-Attention的端到端语音识别模型`ASRModel`
这个部分初始化了模型的各个组件,包括编码器、解码器、CTC模块和损失函数。还设置了一些重要的超参数,如ctc_weight和lsm_weight。这是一个CTC-注意力混合编码器-解码器模型,用于语音识别。"""self,vocab_size: int, # 词汇大小,即输出词汇的总数encoder: BaseEncoder, # 编码器模型decoder: TransformerDecoder, # 解码器模型ctc: CTC, # CTC模块。原创 2024-07-28 18:35:24 · 461 阅读 · 0 评论 -
WeNet环境配置与aishell实践
采用在base环境中安装cuda,配置环境变量,即可使用nvcc。在虚拟环境中继续后续的配置,我在base环境中安装了cuda11.3和cuda12.1,wenet代码均可运行。使用cuda11.3,安装conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch,随后使用requirements.txt进行pip时,注意torch==2.1.2和torchaudio==2.1原创 2024-07-28 18:33:48 · 580 阅读 · 0 评论 -
WeNet:面向生产的流和非流端到端语音识别工具包
WeNet: 一个开源的语音识别工具包,旨在通过新的双通道方法U2统一流式和非流式端到端(E2E)语音识别。动机: 缩小E2E语音识别模型的研究与部署之间的差距。架构: 基于Transformer或Conformer编码器的混合连接时序分类(CTC)和注意力模型。关键特性: 动态chunk-based attention策略,实现流式和非流式统一。原创 2024-07-21 11:48:23 · 1160 阅读 · 0 评论 -
端到端语音识别
使用单个序列到序列模型,直接将输入声学特征序列映射到文本。输入特征目前,端到端语音识别系统常用的输入特征是滤波器组频谱(filterbank,简称 fbank)。预加重:对原始语音信号进行预加重,以增强高频成分,改善信号的频谱特性。分帧:将语音信号分成多个小的帧,每帧通常为20-40毫秒,以便进行短时分析。加窗:对每个帧应用窗函数(如汉明窗),以减少频谱泄漏现象。短时傅里叶变换(STFT):对每个加窗后的帧进行短时傅里叶变换,得到频谱图。Mel 滤波。原创 2024-07-18 17:59:55 · 882 阅读 · 0 评论 -
语音信号处理及特征提取
Fbank特征通常用于深度神经网络(DNN)的训练,它是一种基于滤波器组的声音特征提取方法,常用于语音识别和语音处理领域。MFCC特征12维原始MFCC12维一阶差分12维二阶差分1维能量1维能量的一阶差分1维能量的二阶差分这些特征通常用于对角高斯混合模型(GMM)的训练,因为它们的各维度之间相关性较小,适合用于统计建模和分类任务。原创 2024-07-14 17:52:15 · 719 阅读 · 0 评论 -
语音识别概述
语音是语言的声学表现形式,是人类自然的交流工具。语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。原创 2024-07-13 08:48:25 · 1351 阅读 · 0 评论