时代拓灵数字声纹识别SDK集成调试过程

最新推荐文章于 2024-08-12 08:38:23 发布

weixin_53368440

最新推荐文章于 2024-08-12 08:38:23 发布

阅读量150

点赞数

文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_53368440/article/details/113510003

版权

时代拓灵数字声纹识别SDK效果概述

声音采集
采集说话人声音，按说话人语音内容可分为：固定文本声纹识别与非固定文本声纹识别，用
户可根据不同场景自行选择。
活体检测
检测说话人是否为正常活体，可以有效对非录音和其他非正常人声进行检测，从而增加声纹
识别对手机录音攻击的防御能力，在智能声纹识别中可进行配置。
说话人身份识别
判定说话人是否为当日当时具有相应权限的操作和管理人员，并将比对结果上传数据中心
门内人数判定
可以判定说话人是否为不同人声，因此可以判定是否符合规范要求
声音实时记录及查询
记录区域内说话人声音，系统判定识别结果，并将声音记录及判定结果、操作记录实时上传备案；系统可储存所有进出记录、声音记录，可按不同的查询条件查询
声学算法保障
前端音频信号处理，算法降噪去环境噪音干扰
集成步骤
1.前往时代拓灵官网下数字声纹识别SDK demo
http://www.twirlingvr.com/index.php/home/sdkdownload/index

2.前往时代拓灵官网注数字声纹识别SDK试用项目，申请appid，设置app密码
注意：时代拓灵提供的试用项目，只有14天的试用期，并且20个装机量项目。
http://www.twirlingvr.com/index.php/home/sdkdownload/addTestPro.html
在这里插入图片描述

创建成功后页面右上角点击个人中心->项目管理查看自己申请到的appid。
在这里插入图片描述

3.解压下载的SDK demo
4.集成调试Demo
sdk 使用说明（windows）

在拓灵开放平台官网下载对应版本的 SDK 工具包，并完成注册和购买(试用)操作，获取自己的 token 和密码，在接口调用时需要用到
在 project 文件夹里，简单阅读和修改 TwirlingVPRSamples.cpp :将输入音频修改为自己测试的16k采样，16 bit量化，单通道，pcm 文件的具体路径
代码实时处理 PCM，可通过 math_distance 返回值来区分不同音频声纹差异；01，1为最大
samples 的exe可直接运行，目前测试用例是自对比，故输出为1
sdk 使用说明（Linux）
1.在拓灵开放平台官网下载对应版本的 SDK 工具包，并完成注册和购买(试用)操作，获取自己的 token 和密码，在接口调用时需要用到
在 project 文件夹里，简单阅读和修改 TwirlingVPRSamples.c :将输入音频修改为自己测试的16k采样，16 bit量化，单通道，pcm 文件的具体路径
代码实时处理 PCM，可通过 math_distance 返回值来区分不同音频声纹差异；01，1为最大
通过project目录下的 64bit_make.sh 创建您的可执行程序，生成路径为 TwirlingVPR/bin/TwirlingVPRSamples
TwirlingVPR/bin/TwirlingVPRSamples 可直接运行，目前测试用例是自对比，故输出为1
sdk 接口说明
char *TwirlingVPRGetVersion()
返回值：当前版本
功能：确定版本是否正确
void TwirlingVPRInit(int features_len, const char app_id, const charpasswd)
features_len 特征数
appid[IN] 拓灵账号注册后的 token
pwd[IN] 拓灵账号注册的的密码
返回值: 初始化后下一步处理需要的指针
功能: 初始化操作
int TwirlingVPRProcess(void *obj, char file_name, float d_vector)
obj[IN] TwirlingVPRInit 函数返回的指针
file_name 输入pcm音频
返回值: 0成功，d_vector输出特征值
功能: 判断声纹特征
void TwirlingVPRRelease(void *obj)
obj[IN] TwirlingVPRInit 函数返回的指针
功能: 销毁声纹对象指针，释放资源

5.Tips：
1、拓灵均数字声纹识别SDK支持哪些平台和版本？
当前支持 Windows和Linux，Android即将上线
2、装机量怎么定义的？
装机量授权：数字声纹识别SDK按照装机量收费，购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计，即在终端设备上安装了应用并启用了数字声纹识别SDK控制，即记为一个装机量。同一个终端设备上卸载（重装）应用均记为一个装机量，不重复计数。