声纹识别手册

最新推荐文章于 2025-02-26 22:07:09 发布

Zemun

最新推荐文章于 2025-02-26 22:07:09 发布

阅读量441

点赞数

文章标签：语音识别 tensorflow python

本文链接：https://blog.csdn.net/weixin_45606671/article/details/120367611

版权

本文介绍了如何利用Tensorflow和Python进行声纹识别，包括环境配置、数据处理、模型训练和声纹对比。重点讲述了如何将语音数据转换为梅尔频谱并生成TFRecord文件，以及训练ResNet50模型进行分类。此外，还提供了声纹对比的方法，计算两个语音样本的对角余弦值来评估相似度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声纹识别手册

https://github.com/yeyupiaoling/VoiceprintRecognition-Tensorflow

环境准备
Python 3.7
Tensorflow 2.0
安装libsora
pip install pytest-runner
pip install librosa
如果pip命令安装不成功，那就使用源码安装，下载源码：https://github.com/librosa/librosa/releases/
安装PyAudio
pip install pyaudio
在安装的时候需要使用到C++库进行编译，如果读者的系统是windows，Python是3.7，可以在这里下载whl安装包，下载地址：https://github.com/intxcc/pyaudio_portaudio/releases
安装pydub
pip install pydub

创建数据
Free ST Chinese Mandarin Corpus数据集，这个数据集一共有855个人的语音数据，有102600条语音数据
下载：http://www.openslr.org/38
语音数据小而多，最好的方法就是把这些音频文件生成TFRecord，加快训练速度。所以创建create_data.py用于生成TFRecord文件
首先是创建一个数据列表，数据列表的格式为<语音文件路径\t语音分类标签>，创建这个列表主要是方便之后的读取，也是方便读取使用其他的语音数据集，不同的语音数据集，可以通过编写对应的生成数据列表的函数，把这些数据集

最低0.47元/天解锁文章