PaddleSpeech 的环境搭建与使用(windows)

PaddleSpeech:windows环境搭建

一、环境搭建准备
安装Anaconda

下载地址:https://www.anaconda.com/download#downloads

进入后根据自己的电脑系统下载,这是python 3.10版本下载地址,如果想要下载其它版本可进入此链接(https://www.python.org/downloads/

下载完成后点击进行安装

点击下一步,到这一步时,可以选择将Anaconda添加我的PATH环境变量中,这样就不用自己手动配置和环境变量。

安装完成后,打开终端,输出 python 命令可查看是否安装成功。

如果显示自己刚才安装的版本号说明安装成功。

查看conda版本

命令:conda info

CUDA安装

下载地址:https://developer.nvidia.cn/zh-cn/cuda-toolkit

 

 

NVIDIA控制面板-帮助-系统信息-组件-NVCUDA.DLL后面有版本号表示最高可以装哪个CUDA版本。

根据自己的显卡配置安装合适的CUDA

cuDNN安装

地址为:cuDNN Archive | NVIDIA Developer

先找到与CUDA对应的版本

我的CUDA版本为11.6,所以我选择的cuDNN版本为8.4.0

        

下载Windows版本的(可能需要注册账号才能下载)

下载完成后解压,能看到有以下文件

接着打开CUDA的安装路径

        

将cuDNN目录下三个文件粘贴到CUDA的目录下

到此为止,cuDNN已经成功的安装到了CUDA的内部。为确保安装成功,可以对CUDA进行检验,检验CUDA是否被cuDNN影响。

打开CUDA安装目录找到以下两个文件

以下两张截图末尾的Result均为pass状态,所以,我们刚才安装的cuDNN不会对原有的CUDA造成影响。

 

二、为paddlespeech创建虚拟环境

以下命令为创建名为”paddle_speech“ python版本为3.9(建议使用3.9版本) 的虚拟环境

创建命令:conda create -n paddle_speech python=3.9

查看虚拟环境:conda info --envs

激活conda环境:conda activate paddle_speech

三、安装C++编译环境

(如果你系统上已经安装了 C++ 编译环境,请忽略这一步。)

对于 Windows 系统,需要安装 Visual Studio 来完成 C++ 编译环境的安装。

下载地址:https://visualstudio.microsoft.com/visual-cpp-build-tools/

主要是Visual Studio Installer 中勾选 C++桌面开发。

勾选完成直接点继续,开始安装

四、安装PaddleSpeech
安装pytest-runner

部分用户系统由于默认源的问题,安装中会出现安装出错的问题,建议首先安装pytest-runner

pip install pytest-runner -i https://pypi.tuna.tsinghua.edu.cn/simple

安装paddlepaddle

paddlespeech依赖于paddlepaddle,我们需要先安装paddlepaddle:

CPU版

python -m pip install paddlepaddle==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

GPU版

python -m pip install paddlepaddle-gpu==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装paddlespeech

最后安装paddlespeech

pip install paddlespeech -i https://pypi.tuna.tsinghua.edu.cn/simple

期间会安装很多类库,最终安装成功如图所示:

五、进行语音识别

代码:

from paddlespeech.cli.asr.infer import ASRExecutor
asr = ASRExecutor()
result = asr(audio_file="douyin.mp3")  # 录音文件地址
print(result)

注意:在自己创建的虚拟环境下运行

运行成功

若无法安装paddlespeech模块或者报以下错误,可浏览此文章:http://wed.xjx100.cn/news/200818.html?action=onClick

跑demo的时候遇到以下问题可参考:https://blog.csdn.net/weixin_42166222/article/details/130625663

  • 6
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
好的,下面是使用 PaddleSpeech 进行语音识别的代码示例: 首先,需要安装 PaddlePaddlePaddleSpeech 库: ```python !pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple !pip install paddlespeech -i https://mirror.baidu.com/pypi/simple ``` 然后,加载语音识别模型: ```python import paddle import paddlespeech as ps model = ps.models.DeepSpeech2( vocab_size=26, num_conv_layers=2, num_rnn_layers=3, rnn_layer_size=1024, use_gru=True, share_rnn_weights=False, use_cudnn_rnn=True, dropout_prob=0.1, init_scale=0.1, spec_augment_config={ "freq_masks": 2, "time_masks": 2, "freq_num": 1, "time_num": 1, "max_frames": 10000 } ) model.set_dict(paddle.load("deepspeech2.pdparams")) ``` 其中,`deepspeech2.pdparams` 是预训练好的语音识别模型参数。 接下来,可以使用该模型进行语音识别: ```python import librosa # 加载音频文件 audio_file = "test.wav" audio, sr = librosa.load(audio_file, sr=16000) # 获取音频特征 features = ps.featurizers.FilterBankFeaturizer( sample_rate=16000, num_filters=40, fft_length=1024, hop_length=160 ).transform(audio) # 转换为 PaddlePaddle 的 Tensor 格式 features = paddle.to_tensor(features) # 执行语音识别 text = model.decode(features) print(text) ``` 其中,`test.wav` 是要进行语音识别的音频文件。`FilterBankFeaturizer` 是一个用于提取音频特征的类,它将音频转换为 MFCC 等特征表示。`decode` 方法将音频特征作为输入,输出识别结果。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值