语音识别
文章平均质量分 81
伪_装
The data determines the upper limit of accuracy and the model determines the lower limit of accuracy.
数据决定精度上限,模型决定精度下限。
展开
-
Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具
Edge-TTS是由微软推出的文本转语音Python库,通过微软Azure Cognitive Services转化文本为自然语音。适合需要语音功能的开发者,GitHub上超3000星。作为国内付费TTS服务的替代品,Edge-TTS支持40多种语言和300种声音,提供优质的语音输出,满足不同开发需求。原创 2024-03-14 21:38:01 · 11038 阅读 · 2 评论 -
音乐人声分离工具:极简的人声和背景音乐分离工具
极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网原创 2024-01-19 19:20:16 · 1219 阅读 · 0 评论 -
NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化
在这些层中,模型的通道数也多于前几层的通道数,占用了大量的模型参数。说话人确认的任务是判断当前语音是否属于特定的目标说话人,近年来,关于说话人确认的研究不断深入,神经网络的兴起逐渐取代了传统的机器学习算法,成为人们研究前沿技术的主流路径[1]。我们介绍了一种基于模型各层的秩作为剪枝指导的方法,该方法结合了输入数据和模型滤波器的内在属性,分析了特征图在模型各层中秩的展开规律。特征图的秩作为一种有效的信息度量,可以用少量输入数据得到的特征图的秩来近似表示,另外,特征图的秩具有相当高的稳定性。转载 2024-01-19 18:47:23 · 130 阅读 · 0 评论 -
基于WEKWS模型的语音唤醒关键词识别
本文所使用的模型网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》,文中研究了将低秩矩阵分解与传统FSMN相结合的紧凑型前馈顺序记忆网络(cFSMN)用于远场关键字检测任务。原创 2024-01-18 19:20:06 · 2066 阅读 · 0 评论 -
开源语音大语言模型——Qwen-Audio
开源语音大语言模型——阿里基于Qwen-Chat提出Qwen-Audio原创 2023-11-27 20:46:44 · 1692 阅读 · 0 评论 -
FBank、MFCC、PLP实现
【代码】FBank、MFCC、PLP实现。原创 2023-11-22 21:07:32 · 225 阅读 · 0 评论 -
网易有道强力开源中英双语语音克隆
EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。原创 2023-11-14 21:14:42 · 342 阅读 · 0 评论 -
GitHub 开源神器 Bark模型,让文本转语音更简单!
Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。原创 2023-11-14 21:22:09 · 542 阅读 · 0 评论