语音识别_伪_装的博客-CSDN博客

语音识别

关注

文章平均质量分 81

关注数：文章数：8 文章阅读量：17238 文章收藏量：96

作者: 伪_装

The data determines the upper limit of accuracy and the model determines the lower limit of accuracy. 数据决定精度上限，模型决定精度下限。

展开

Edge-TTS：微软推出的，免费、开源、支持多种中文语音语色的AI工具

Edge-TTS是由微软推出的文本转语音Python库，通过微软Azure Cognitive Services转化文本为自然语音。适合需要语音功能的开发者，GitHub上超3000星。作为国内付费TTS服务的替代品，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，满足不同开发需求。

原创 2024-03-14 21:38:01 · 11038 阅读 · 2 评论
音乐人声分离工具：极简的人声和背景音乐分离工具

极简的人声和背景音乐分离工具，本地化网页操作，无需连接外网

原创 2024-01-19 19:20:16 · 1219 阅读 · 0 评论
NCMMSC 2023论文｜基于秩的轻量级声纹模型剪枝量化

在这些层中，模型的通道数也多于前几层的通道数，占用了大量的模型参数。说话人确认的任务是判断当前语音是否属于特定的目标说话人，近年来，关于说话人确认的研究不断深入，神经网络的兴起逐渐取代了传统的机器学习算法，成为人们研究前沿技术的主流路径[1]。我们介绍了一种基于模型各层的秩作为剪枝指导的方法，该方法结合了输入数据和模型滤波器的内在属性，分析了特征图在模型各层中秩的展开规律。特征图的秩作为一种有效的信息度量，可以用少量输入数据得到的特征图的秩来近似表示，另外，特征图的秩具有相当高的稳定性。

转载 2024-01-19 18:47:23 · 130 阅读 · 0 评论
基于WEKWS模型的语音唤醒关键词识别

本文所使用的模型网络结构继承自论文《Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting》，文中研究了将低秩矩阵分解与传统FSMN相结合的紧凑型前馈顺序记忆网络（cFSMN）用于远场关键字检测任务。

原创 2024-01-18 19:20:06 · 2066 阅读 · 0 评论
开源语音大语言模型——Qwen-Audio

开源语音大语言模型——阿里基于Qwen-Chat提出Qwen-Audio

原创 2023-11-27 20:46:44 · 1692 阅读 · 0 评论
FBank、MFCC、PLP实现

【代码】FBank、MFCC、PLP实现。

原创 2023-11-22 21:07:32 · 225 阅读 · 0 评论
网易有道强力开源中英双语语音克隆

EmotiVoice是一个强大的开源TTS引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

原创 2023-11-14 21:14:42 · 342 阅读 · 0 评论
GitHub 开源神器 Bark模型，让文本转语音更简单！

Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流，如大笑、叹息和哭泣。

原创 2023-11-14 21:22:09 · 542 阅读 · 0 评论

语音识别

作者: 伪_装

Edge-TTS：微软推出的，免费、开源、支持多种中文语音语色的AI工具

音乐人声分离工具：极简的人声和背景音乐分离工具

NCMMSC 2023论文｜基于秩的轻量级声纹模型剪枝量化

基于WEKWS模型的语音唤醒关键词识别

开源语音大语言模型——Qwen-Audio

FBank、MFCC、PLP实现

网易有道强力开源中英双语语音克隆

GitHub 开源神器 Bark模型，让文本转语音更简单！