ASR实战
文章平均质量分 65
以实战为主,带你走通ASR的全流程。
wxl781227
生命如昙花一现,愿每一段行程象如歌的行板,灿烂而又真实!
展开
-
16K转8K
ffmpeg -i s-16k.wav -ar 8000 s-8k.wav原创 2023-09-08 12:01:09 · 311 阅读 · 0 评论 -
NeMo 声纹识别VPR-实战
p>请求序号: 请求序号:由调用方维护,建议使用uuid,调用后原样返回,用于标识请求和调用方存储识别结果。声纹要求:16K采样,单通道,小于10秒,支持格式:.wav/.mp3/.m4a/.amr。使用Titanet-L模型,不需要训练,可以直接针对中文/英文进行使用识别验证。原始声纹:代表坐席的声纹。开场声纹:登录坐席的声纹。原创 2023-08-15 11:54:12 · 382 阅读 · 0 评论 -
NeMo 中文ASR话者分离(说话人日志)实战
首先基于VAD(声音活动检测)的MarbleNet,分割声音片段,然后基于TitaNet-L提取话者特征,然后通过聚类区分话者,最后通过神经网络分离话者标签。话者分离或者叫说话人日志,主要是解决说话人什么时候说了什么的问题。典型的应用场景:多人会议、坐席销售/客服场景。speaker_1 ['诶前天跟我说的昨天跟我说十二期利率是多大']6、 引入原始的yaml配置文件。7、创建mainfest文件。10、创建ASR离线分离对象。8、设置使用到的管道模型。12、显示离线分离的结果。5、输出未分离前的波形。原创 2023-08-15 10:56:52 · 1079 阅读 · 0 评论 -
NeMo中文/英文ASR模型微调训练实践
{"audio_filepath": "test.wav", "duration": 8.69, "text": "诶前天跟我说昨天跟我说十二期利率是多少工号幺九零八二六十二期的话零点八一万的话分十二期利息八十嘛"}s1 = "诶前天跟我说昨天跟我说十二期利率是多少工号幺九零八二六十二期的话零点八一万的话分十二期利息八十嘛"#指定正确答案。#['诶前天跟我说的昨天跟我说十二期利率是多少工号幺九零八二六零十二期的话零点八一万的话分十二期利息八十嘛']10.增加标点符号输出。7.保存训练好的模型。原创 2023-08-12 23:09:02 · 898 阅读 · 0 评论