NeMo 声纹识别VPR-实战

jacky_wxl(微信同号）

已于 2023-11-03 10:52:54 修改

阅读量604

点赞数

分类专栏： ASR实战文章标签：人工智能声纹识别声纹验证

于 2023-08-15 11:54:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxl781227/article/details/132295177

版权

ASR实战专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何使用TITANET-L模型进行声纹识别，包括说话人辨认和确认的应用场景，以及在FastAPI环境中实现的接口代码，重点展示了如何通过上传声纹文件进行验证操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声纹识别(VPR) ，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：

说话人辨认(Speaker Identification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；
说话人确认(Speaker Verification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

本文主要是识别两个声音是否为同一个人。

应用场景：APP声纹验证登录、坐席辅助助手登录后坐席是否为原坐席、客户进行业务申请时验证是否为客户本人。

使用Titanet-L模型，不需要训练，即可以直接针对中文/英文声音进行识别验证。

1、环境安装

pip install -U nemo_toolkit[all] ASR-metrics fastapi python-multipart ujson uvicorn -i https://pypi.tuna.tsinghua.edu.cn/simple

2、接口代码：

from fastapi import FastAPI, Request, File, UploadFile, Form

from fastapi.responses import HTMLResponse

from transformers import AutoTokenizer, AutoModel

import uvicorn, json, datetime

import torch

from fastapi.middleware.cors import CORSMiddleware

import nemo.collections.asr as nemo_asr

import os

import librosa

DEVICE = "cuda"

DEVICE_ID = "0"

CUDA_DEVICE = f"{DEVICE}:{DEVICE_ID}" if DEVICE_ID else DEVICE

print("GPU:", CUDA_DEVICE)

def torch_gc():

if torch.cuda.is_available():

with torch.cuda.device(CUDA_DEVICE):

torch.cuda.empty_cache()

torch.cuda.ipc_collect()

app = FastAPI()

app.add_middleware(

CORSMiddleware,

allow_origins=["*"],

allow_credentials=True,

allow_methods=["*"],

allow_headers=["*"],

)

model = nemo_asr.models.EncDecSpeakerLabelModel.restore_from('titanet-l.nemo')

print('声纹模型已准备就绪')

@app.get("/")

async def upload():

content = """

<title>声纹识别</title>

<B>声纹识别</B>

<body>

<form action="/sv/" enctype="multipart/form-data" method="post">

<p>请求序号: <input type="text" name="request_id" value='3F2504E0-4F89-11D3-9A0C-0305E82C3301'/></p>

<p>

原始声纹:

<input name="oracle_file" type="file" accept=".wav,.mp3,.m4a,.amr">

</p>

<p>

开场声纹:

<input name="system_file" type="file" accept=".wav,.mp3,.m4a,.amr">

<input type="submit">

</p>

</form>

<p>

请求序号：由调用方维护，建议使用uuid，调用后原样返回，用于标识请求和调用方存储识别结果。

</p>

<p>

原始声纹：代表坐席的声纹。

</p>

<p>

开场声纹：登录坐席的声纹。

</p>

<p>

声纹要求：16K采样，单通道，小于10秒，支持格式：.wav/.mp3/.m4a/.amr

</p>

</body>

"""

return HTMLResponse(content=content)

@app.post("/sv")

async def speaker_verify(request_id: str = Form(...), oracle_file: UploadFile = File(...), system_file: UploadFile = File(...)):

global model

data_path = '.'+ os.sep + 'data' + os.sep + request_id

if not os.path.isdir(data_path):

os.makedirs(data_path)

oracle_file_name = data_path + os.sep + oracle_file.filename

system_file_name = data_path + os.sep + system_file.filename

with open(oracle_file_name, 'wb') as o:

o.write(oracle_file.file.read())

with open(system_file_name, 'wb') as s:

s.write(system_file.file.read())

d_o = librosa.get_duration(filename=oracle_file_name)

d_s = librosa.get_duration(filename=system_file_name)

if d_o>10 or d_s>10:

now = datetime.datetime.now()

time = now.strftime("%Y-%m-%d %H:%M:%S")

return {

"request_id": request_id,

"result": repr("audio duration over 10s"),

"status": 300,

"time": time

}

result = model.verify_speakers(oracle_file_name, system_file_name,threshold=0.8)

now = datetime.datetime.now()

time = now.strftime("%Y-%m-%d %H:%M:%S")

answer = {

"request_id": request_id,

"result": result,

"status": 200,

"time": time

}

log = "[" + time + "] " + '", request_id:"' + request_id + '", result:"' + repr(result) + '"'

print(log)

torch_gc()

return answer

if __name__ == '__main__':

uvicorn.run(app='api:app', host='0.0.0.0', port=8500, workers=4)

3、接口界面：

4、验证结果：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

jacky_wxl(微信同号） 喜欢作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。