声纹识别手册

本文介绍了如何利用Tensorflow和Python进行声纹识别,包括环境配置、数据处理、模型训练和声纹对比。重点讲述了如何将语音数据转换为梅尔频谱并生成TFRecord文件,以及训练ResNet50模型进行分类。此外,还提供了声纹对比的方法,计算两个语音样本的对角余弦值来评估相似度。
摘要由CSDN通过智能技术生成

声纹识别手册

https://github.com/yeyupiaoling/VoiceprintRecognition-Tensorflow

环境准备
Python 3.7
Tensorflow 2.0
安装libsora
pip install pytest-runner
pip install librosa
如果pip命令安装不成功,那就使用源码安装,下载源码:https://github.com/librosa/librosa/releases/
安装PyAudio
pip install pyaudio
在安装的时候需要使用到C++库进行编译,如果读者的系统是windows,Python是3.7,可以在这里下载whl安装包,下载地址:https://github.com/intxcc/pyaudio_portaudio/releases
安装pydub
pip install pydub

创建数据
Free ST Chinese Mandarin Corpus数据集,这个数据集一共有855个人的语音数据,有102600条语音数据
下载:http://www.openslr.org/38
语音数据小而多,最好的方法就是把这些音频文件生成TFRecord,加快训练速度。所以创建create_data.py用于生成TFRecord文件
首先是创建一个数据列表,数据列表的格式为<语音文件路径\t语音分类标签>,创建这个列表主要是方便之后的读取,也是方便读取使用其他的语音数据集,不同的语音数据集,可以通过编写对应的生成数据列表的函数,把这些数据集

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值