时代拓灵文本无关声纹识别SDK集成调试过程

最新推荐文章于 2024-07-22 01:13:40 发布

weixin_53368440

最新推荐文章于 2024-07-22 01:13:40 发布

阅读量90

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_53368440/article/details/113584277

版权

时代拓灵文本无关声纹识别SDK效果概述
声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。时代拓灵文本无关声纹识别系统则不规定说话人的发音内容，用户使用方便，可应用范围较宽。
根据特定的任务和应用，文本相关和文本无关两种声纹识别SDK是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为无法要求犯罪嫌疑人或被侦听的人配合。
集成步骤
1.前往时代拓灵官网下载文本无关声纹识别SDK demo
http://www.twirlingvr.com/index.php/home/sdkdownload/index
在这里插入图片描述

2.前往时代拓灵官网注册文本无关声纹识别SDK试用项目，申请appid，设置app密码
注意：时代拓灵提供的试用项目，只有14天的试用期，并且20个装机量项目。
http://www.twirlingvr.com/index.php/home/sdkdownload/addTestPro.html
在这里插入图片描述

创建成功后页面右上角点击个人中心->项目管理查看自己申请到的appid。
在这里插入图片描述

3.解压下载的SDK demo
4.集成调试Demo
sdk 使用说明（Linux）

在拓灵开放平台官网
(http://yun.twirlingvr.com/index.php/home/sdkdownload/index.html)下载对应版本的SDK 工具包，并完成注册和购买(试用)操作，获取自己的appid和密码
在project文件夹里，简单阅读和修改sample.c : 输入appid，app密码，以及识别声纹相似度的阈值，阈值在0~1之间，0代表没有相似度，1代表完全一样。
通过project目录下的64bit_make.sh创建您的可执行程序，生成路径为TwirlingTIVPR/bin/sample
TwirlingTIVPR/bin/sample 可直接运行，接受两个参数，都是16k采样，16 bit量化，单通道，pcm 文件的具体路径，返回两个音频声纹的相似度打分和说话人id，如果声纹相似度超过阈值，id为1，否则为-1。
SDK接口说明
char *tlrGetVersion()
 返回值：当前版本
 功能：确定版本是否正确
void *tlrInit(const int chs, const int sample_rate, int stride_len, int *features_len, float，threshold, const char *appid, const char *pwd)
 chs: 音频通道数，这里应该是单通道，值为1
 sample_rate: 音频采样率
 stride_len: 帧移点数，通常为160个点即10毫秒
 threshold：识别声纹相似度的阈值，在0~1之间
 appid[IN]：拓灵账号注册后的token
 pwd[IN]：拓灵账号注册的的密码
 返回值: 初始化后下一步处理需要的指针
 功能: 初始化操作
int tlrEnroll(void *obj, const short *audio_data, float *features)
 obj[IN]：tlrInit 函数返回的指针
 audio_data: 音频文件的时域波形
 features: 提取的音频文件的dvector特征
 返回值：0 成功，features输出特征值
 功能：一次性送入2s以上的注册音频audio_data，得到输出feature
int tlrLoad(void *obj, float *vprs, int person_count)
 obj[IN]: tlrInit 函数返回的指针
 vprs: 提取的说话人的d_vector特征
 person_count: 录入的说话人的人数
 功能：录入说话人的声纹特征
int tlrProcess(void *obj, const short *audio_data, float *score, int *person_id)
 obj[IN]: tlrInit 函数返回的指针
 audio_data：待识别的音频文件的时域波形
 score：待识别音频和录入音频声纹相似度的打分，如果超过阈值就返回最大的声
纹相似度打分，否则返回-100

5.Tips：
1、拓灵文本无关声纹识别SDK支持哪些平台和版本？
当前支持Linux平台
2、装机量怎么定义的？
装机量授权：文本无关声纹识别SDK按照装机量收费，购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计，即在终端设备上安装了应用并启用了文本无关声纹识别SDK，即记为一个装机量。同一个终端设备上卸载（重装）应用均记为一个装机量，不重复计数。

weixin_53368440

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
时代拓灵文本无关声纹识别SDK集成调试过程

时代拓灵文本无关声纹识别SDK效果概述声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。时代拓灵文本无关声纹识别系统则不规定说话人的发音内容，用户使用方便，可应用范围较宽。根据特定的任务和应用，文本相关和文本无关两种声纹识别SDK是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为无法要求犯罪嫌疑人或被侦听的人配合。集成步骤1.前往时代拓灵
复制链接

扫一扫