时代拓灵文本无关声纹识别SDK集成调试过程

时代拓灵文本无关声纹识别SDK效果概述
声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。时代拓灵文本无关声纹识别系统则不规定说话人的发音内容,用户使用方便,可应用范围较宽。
根据特定的任务和应用,文本相关和文本无关两种声纹识别SDK是有不同的应用范围的。比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为无法要求犯罪嫌疑人或被侦听的人配合。
集成步骤
1.前往时代拓灵官网下载文本无关声纹识别SDK demo
http://www.twirlingvr.com/index.php/home/sdkdownload/index
在这里插入图片描述

2.前往时代拓灵官网注册文本无关声纹识别SDK试用项目,申请appid,设置app密码
注意:时代拓灵提供的试用项目,只有14天的试用期,并且20个装机量项目。
http://www.twirlingvr.com/index.php/home/sdkdownload/addTestPro.html
在这里插入图片描述

创建成功后页面右上角点击个人中心->项目管理查看自己申请到的appid。
在这里插入图片描述
在这里插入图片描述

3.解压下载的SDK demo
4.集成调试Demo
sdk 使用说明(Linux)

  1. 在拓灵开放平台官网
    (http://yun.twirlingvr.com/index.php/home/sdkdownload/index.html)下载对应版本的SDK 工具包,并完成注册和购买(试用)操作,获取自己的appid和密码
  2. 在project文件夹里,简单阅读和修改sample.c : 输入appid,app密码,以及识别声纹相似度的阈值,阈值在0~1之间,0代表没有相似度,1代表完全一样。
  3. 通过project目录下的64bit_make.sh创建您的可执行程序,生成路径为TwirlingTIVPR/bin/sample
  4. TwirlingTIVPR/bin/sample 可直接运行,接受两个参数,都是16k采样,16 bit量化,单通道,pcm 文件的具体路径,返回两个音频声纹的相似度打分和说话人id,如果声纹相似度超过阈值,id为1,否则为-1。
    SDK接口说明
  5. char *tlrGetVersion()
     返回值:当前版本
     功能:确定版本是否正确
  6. void *tlrInit(const int chs, const int sample_rate, int stride_len, int *features_len, float,threshold, const char *appid, const char *pwd)
     chs: 音频通道数,这里应该是单通道,值为1
     sample_rate: 音频采样率
     stride_len: 帧移点数,通常为160个点即10毫秒
     threshold:识别声纹相似度的阈值,在0~1之间
     appid[IN]:拓灵账号注册后的token
     pwd[IN]:拓灵账号注册的的密码
     返回值: 初始化后下一步处理需要的指针
     功能: 初始化操作
  7. int tlrEnroll(void *obj, const short *audio_data, float *features)
     obj[IN]:tlrInit 函数返回的指针
     audio_data: 音频文件的时域波形
     features: 提取的音频文件的dvector特征
     返回值:0 成功,features输出特征值
     功能:一次性送入2s以上的注册音频audio_data,得到输出feature
  8. int tlrLoad(void *obj, float *vprs, int person_count)
     obj[IN]: tlrInit 函数返回的指针
     vprs: 提取的说话人的d_vector特征
     person_count: 录入的说话人的人数
     功能:录入说话人的声纹特征
  9. int tlrProcess(void *obj, const short *audio_data, float *score, int *person_id)
     obj[IN]: tlrInit 函数返回的指针
     audio_data:待识别的音频文件的时域波形
     score:待识别音频和录入音频声纹相似度的打分,如果超过阈值就返回最大的声
    纹相似度打分,否则返回-100

5.Tips:
1、拓灵文本无关声纹识别SDK支持哪些平台和版本?
当前支持Linux平台
2、装机量怎么定义的?
装机量授权:文本无关声纹识别SDK按照装机量收费,购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计,即在终端设备上安装了应用并启用了文本无关声纹识别SDK,即记为一个装机量。同一个终端设备上卸载(重装)应用均记为一个装机量,不重复计数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值