时代拓灵数字声纹识别SDK效果概述
- 声音采集
采集说话人声音,按说话人语音内容可分为:固定文本声纹识别与非固定文本声纹识别,用
户可根据不同场景自行选择。 - 活体检测
检测说话人是否为正常活体,可以有效对非录音和其他非正常人声进行检测,从而增加声纹
识别对手机录音攻击的防御能力,在智能声纹识别中可进行配置。 - 说话人身份识别
判定说话人是否为当日当时具有相应权限的操作和管理人员,并将比对结果上传数据中心 - 门内人数判定
可以判定说话人是否为不同人声,因此可以判定是否符合规范要求 - 声音实时记录及查询
记录区域内说话人声音,系统判定识别结果,并将声音记录及判定结果、操作记录实时上传备案;系统可储存所有进出记录、声音记录,可按不同的查询条件查询 - 声学算法保障
前端音频信号处理,算法降噪去环境噪音干扰
集成步骤
1.前往时代拓灵官网下数字声纹识别SDK demo
http://www.twirlingvr.com/index.php/home/sdkdownload/index
2.前往时代拓灵官网注数字声纹识别SDK试用项目,申请appid,设置app密码
注意:时代拓灵提供的试用项目,只有14天的试用期,并且20个装机量项目。
http://www.twirlingvr.com/index.php/home/sdkdownload/addTestPro.html
创建成功后页面右上角点击个人中心->项目管理查看自己申请到的appid。
3.解压下载的SDK demo
4.集成调试Demo
sdk 使用说明(windows)
- 在拓灵开放平台官网下载对应版本的 SDK 工具包,并完成注册和购买(试用)操作,获取自己的 token 和密码,在接口调用时需要用到
- 在 project 文件夹里,简单阅读和修改 TwirlingVPRSamples.cpp :将 输入音频 修改为自己测试的16k采样,16 bit量化,单通道,pcm 文件的具体路径
- 代码实时处理 PCM,可通过 math_distance 返回值来区分不同音频声纹差异;01,1为最大
- samples 的exe可直接运行,目前测试用例是自对比,故输出为1
sdk 使用说明(Linux)
1.在拓灵开放平台官网下载对应版本的 SDK 工具包,并完成注册和购买(试用)操作,获取自己的 token 和密码,在接口调用时需要用到 - 在 project 文件夹里,简单阅读和修改 TwirlingVPRSamples.c :将 输入音频 修改为自己测试的16k采样,16 bit量化,单通道,pcm 文件的具体路径
- 代码实时处理 PCM,可通过 math_distance 返回值来区分不同音频声纹差异;01,1为最大
- 通过project目录下的 64bit_make.sh 创建您的可执行程序,生成路径为 TwirlingVPR/bin/TwirlingVPRSamples
- TwirlingVPR/bin/TwirlingVPRSamples 可直接运行,目前测试用例是自对比,故输出为1
sdk 接口说明 - char *TwirlingVPRGetVersion()
返回值:当前版本
功能: 确定版本是否正确 - void TwirlingVPRInit(int features_len, const char app_id, const charpasswd)
features_len 特征数
appid[IN] 拓灵账号注册后的 token
pwd[IN] 拓灵账号注册的的密码
返回值: 初始化后下一步处理需要的指针
功能: 初始化操作 - int TwirlingVPRProcess(void *obj, char file_name, float d_vector)
obj[IN] TwirlingVPRInit 函数返回的指针
file_name 输入pcm音频
返回值: 0成功,d_vector输出特征值
功能: 判断声纹特征 - void TwirlingVPRRelease(void *obj)
obj[IN] TwirlingVPRInit 函数返回的指针
功能: 销毁声纹对象指针,释放资源
5.Tips:
1、拓灵均数字声纹识别SDK支持哪些平台和版本?
当前支持 Windows和Linux,Android即将上线
2、装机量怎么定义的?
装机量授权:数字声纹识别SDK按照装机量收费,购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计,即在终端设备上安装了应用并启用了数字声纹识别SDK控制,即记为一个装机量。同一个终端设备上卸载(重装)应用均记为一个装机量,不重复计数。