智能语音
文章平均质量分 85
语音之家
这个作者很懒,什么都没留下…
展开
-
文本到语音合成系统 ,开源!
TTS(Text To Speech,文本转语音)是一种将文字转换为语音的技术,它可以将计算机程序生成的文字转化为人类可以听懂的声音。TTS技术利用自然语言处理和语音合成技术,将文本转化为语音,并可以通过音频播放设备输出语音。原创 2024-03-15 14:27:20 · 437 阅读 · 0 评论 -
VideoDubber时长可控的视频配音方法
本次分享由中国人民大学、微软亚洲研究院联合投稿于AAAI 2023的一篇专门为视频配音任务定制的机器翻译的工作《VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing》。这个工作将电影或电视节目中的原始语音翻译成目标语言。原创 2024-03-11 15:07:19 · 825 阅读 · 0 评论 -
2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务
edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。原创 2024-03-04 15:44:40 · 1940 阅读 · 2 评论 -
ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结
为促进驾驶场景中语音处理和识别研究,在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上,西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学以及中国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛(ICMC-ASR)。原创 2024-03-01 14:24:30 · 1261 阅读 · 0 评论 -
多模态说话人开源项目3D-Speaker
3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。原创 2024-02-29 11:04:07 · 1847 阅读 · 0 评论 -
论文分享|AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染
本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling 》。该工作利用异构图实现情感上下文建模机制,生成符合对话语境的情感语音,实现了对话语音合成的情感渲染。该工作被AAAI 2024录用。原创 2024-02-28 14:55:25 · 1173 阅读 · 0 评论 -
优化回声消除过程:AEC Challenge冠军方案线性部分解析
我们知道在WebRTC的AEC中包含两个部分,参考WebRTC AEC 流程解析,分别是线性部分,用于消除线性回声;非线性部分,用于消除硬件等引入的非线性部分。这里的线性部分采用了分块频域自适应滤波器(Partitioned Block Frequency Domain Adaptive Filter, PBFDAF),这个滤波器在Speex中称为分块频域波器(Multidelayblock frequency Filter,MDF), 其实它们原理是一样的,都是基于NLMS的自适应滤波器。原创 2024-02-27 14:59:08 · 912 阅读 · 0 评论 -
ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别
视听语音识别(Audio-visual speech recognition, AVSR)是指结合音频和视频信息对语音进行识别的技术。当前,语音识别(ASR)系统在准确性在某些场景下已经达到与人类相媲美的水平。然而在复杂声学环境或远场拾音场景,如多人会议中,ASR系统的性能可能会受到背景噪音、混响和多人说话的重叠的干扰而严重下降。基于视频的视觉语音识别(VSR)系统通常不会受到声学环境的干扰。原创 2024-02-26 17:32:18 · 1443 阅读 · 0 评论 -
CHiME丨MMCSG(智能眼镜多模态对话)
CHiME 挑战赛已经正式开启,今天分享下 CHiME 的子任务MMCSG(智能眼镜多模态对话),欢迎大家投稿报名!原创 2024-02-23 14:00:23 · 683 阅读 · 0 评论 -
HBK声学与振动 | 助听器测试
高质量的助听器能让有听力障碍的用户轻松自如地进行交流。我们的头和躯干模拟器、耳模拟器和人工乳突为优化音频质量和清晰度提供了全面的测试解决方案。原创 2024-02-22 14:15:42 · 146 阅读 · 0 评论 -
解读OpenAI Sora文生视频技术原理
OpenAI Sora文生视频(图像看作单帧视频)一放出就炸翻整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。OpenAI 随后公布的技术综述[文献1],难掩其勃勃雄心:视频生成模型作为世界模拟器。原创 2024-02-21 15:37:08 · 1020 阅读 · 0 评论 -
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业
Sora突破之后的突破又来了!语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。原创 2024-02-20 10:57:00 · 1016 阅读 · 0 评论 -
WhisperFusion:具有超低延迟无缝对话功能的AI系统
WhisperFusion 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。原创 2024-02-19 15:05:25 · 1127 阅读 · 1 评论 -
工程经验分享 Incremental FastPitch
分享 NVIDIA 基于 GPU 的 TTS 解决方案介绍。原创 2024-01-30 16:23:57 · 761 阅读 · 0 评论 -
WhisperBot:整合了Mistral大型语言模型的实时语音转文本系统
欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。原创 2024-01-29 14:53:52 · 1507 阅读 · 1 评论 -
GPT-SoVits: 上线两天获得了1.4k star的开源声音克隆项目,1分钟语音训练TTS模型
近期,RVC变声器创始人 (GitHub昵称:RVC-Boss)开源了一款跨语言音色克隆项目 GPT-SoVITS。项目一上线就引来了互联网大佬和博主的好评推荐,不到两天时间就已经在GitHub上获得了1.4k Star量。原创 2024-01-24 14:38:10 · 4550 阅读 · 2 评论 -
细数语音识别中的几个former
随着Transformer在人工智能领域掀起了一轮技术革命,越来越多的领域开始使用基于Transformer的网络结构。目前在语音识别领域中,Tranformer已经取代了传统ASR建模方式。近几年关于ASR的研究工作很多都是基于Transformer的改进,本文将介绍其中应用较为广泛的几个former架构。原创 2024-01-23 11:40:42 · 1983 阅读 · 0 评论 -
2024年,AI大模型有哪些新看点?
自ChatGPT-4问世以来,过去的大半年中,我们虽然没有在ChatGPT发布一周年之际等来“ChatGPT-5”,但围绕ChatGPT,仍有不少新看点。其中的一些引发我们对人工智能(AI)与人的关系进行新的思考,另一些则为AI的发展和安全带来新的争论。原创 2024-01-22 16:55:16 · 1372 阅读 · 0 评论 -
音乐人声分离工具:极简的人声和背景音乐分离工具
这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。原创 2024-01-19 10:51:27 · 1341 阅读 · 0 评论 -
又快又好! 基于Consistency Model的一步采样歌声转换模型CoMoSVC已开源
在2023年,AI虚拟歌手如AI孙燕姿等已经引起了广泛的关注,而大多数应用都是基于开源框架SoVITS。最近,香港科技大学和微软亚洲研究院推出了一种基于Consistency Model的歌声转换系统CoMoSVC,它在歌声转换速度上与基于Flow的SoVITS系统相媲美,但在自然度和相似度方面大幅超越了原有模型。它的MOS评分(满分5分)比基于Flow的SoVITS系统高出了1分,同时也达到或超过了基于多步采样Diffusion Model的评分。原创 2024-01-18 16:06:41 · 700 阅读 · 0 评论 -
报名开启丨2023 SpeechHome 语音技术研讨会
2023 SpeechHome 语音技术研讨会是由语音之家主办,深圳市人工智能学会、CCF 语音对话与听觉专委会做为指导单位,中国语音产业联盟、中国人工智能产业联盟数据委员会、北京人工智能产业联盟数据创新服务专业委员会、清华大学语音和语言技术中心、香港中文大学(深圳)语音与语言实验室、昆山杜克大学语音与多模态智能信息处理实验室、西北工业大学音频语音与语言处理研究组、小米集团、喜马拉雅、希尔贝壳协办。研讨会旨在促进产学研间的语音技术交流,洞察未来技术创新趋势,推动智能语音技术在前沿、开源领域的发展。原创 2023-11-09 15:01:05 · 184 阅读 · 0 评论 -
7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023
LLM不实用,小模型蒸馏才是「现实」的大模型应用路线,全面领先微调技术!土豪请无视。。。原创 2023-10-08 10:32:50 · 131 阅读 · 0 评论 -
NeurIPS 2023丨说话人识别:语音解耦与自监督
对于说话人识别/验证(speaker recognition/verification)任务而言,提取准确的说话人表征(speaker representation)是非常困难的,因为语音信息中同时包含了说话人特征信息和语音内容信息[1]。另一方面,为了降低文本标签缺失对语音文本信息部分建模的影响,研究者提出了一种特别的自监督(self-supervision)学习方法来辅助解耦动态信息部分,其中使用的损失函数是通过对线性操作所保留的说话人表征的优化而达到的,命名为。t对于动态信息建模的有效性和必要性。原创 2023-10-07 15:49:01 · 441 阅读 · 0 评论 -
论文分享 | 利用单模态自监督学习实现多模态AVSR
训练一个基于Transformer的模型需要大量的数据,然而获取对齐且有标注的多模态数据的成本很高,特别是用于音视频语音识别的数据(AVSR)。因此使用未标注的单模态数据非常有意义。另一方面,尽管大规模自监督学习的有效性在音频和视觉方面都得到了很好的证实,但是如何将这些预训练模型融合到多模态场景中仍尚未得到充分探索。在本工作中,我们成功利用单模态自监督学习来优化多模态的AVSR。原创 2023-10-07 15:41:23 · 366 阅读 · 0 评论 -
可控情感的表现力语音驱动面部动画合成
此外,我们还引入了一个基于CNN网络的情感增强网络,根据情感特征来增强FLAME参数的表现力,将Audio2FLAME模型预测的FLAME面部参数映射为情感增强的面部参数。相反,我们发现情感识别网络的最终softmax层之前的情感logits,包括七种情感的七维向量,如快乐、愤怒等,与感知到的情感强度高度一致。因此,我们将它们用作模型训练的情感先验,并与用户的情感控制向量相结合。我们可以看到,与没有情感控制模块生成的中性动画相比,我们的方法可以通过情感控制模块提高动画的表现力,实现更多的情感表达。原创 2023-09-27 16:41:10 · 408 阅读 · 0 评论 -
新增测试场景:方言
SpeechIO的所有历史文章可在语音之家网站的【声浪】-【SpeechIO专区】查看,评测结果数据可在语音之家(PC端)的【SOTA】页面查看。官网地址:http://www.speechhome.com/eval。原创 2023-09-27 16:33:48 · 106 阅读 · 0 评论 -
ICASSP 2024 丨十一场顶级赛事汇总
IEEE声学、语音与信号处理国际会议(ICASSP 2024)将于2024年4月14日在韩国首尔举办,作为语音研究顶级会议,历年来备受语音开发者的关注,小管家整理了 ICASSP 2024 公示的11场赛事汇总分享给大家。原创 2023-09-25 15:39:30 · 2316 阅读 · 0 评论 -
大模型训练为什么用A100不用4090
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。H100 这个售价其实是有 10 倍以上油水的。2016 年我在 MSRA 的时候,见证了微软给每块服务器部署了 FPGA,把 FPGA 打到了沙子的价格,甚至成为了供应商 Altera 被 Intel 收购的重要推手。原创 2023-09-22 10:58:18 · 3336 阅读 · 0 评论 -
中文读唇总动员:CNVSRC 2023 视觉语音识别挑战赛启动
由 NCMMSC 2023 组委会发起,清华大学、北京邮电大学、海天瑞声、语音之家共同主办的 CNVSRC 2023 中文连续视觉语音识别挑战赛即日启动,诚邀参与报名。原创 2023-09-21 11:15:06 · 365 阅读 · 0 评论 -
碾压Llama2!微软13亿参数phi-1.5,单个A100训练,刷新SOTA
微软推出了一个全新预训练模型phi-1.5,共有13亿参数,能做QA问答、聊天和写代码等等。原创 2023-09-19 10:46:33 · 170 阅读 · 0 评论 -
一文了解语音合成技术(TTS)
TTS是Text To Speech的缩写,即“从文本到语音”。 它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或者其他语言语音)输出的技术,隶属于语音合成(SpeechSynthesis)。原创 2023-09-18 14:33:10 · 2239 阅读 · 0 评论 -
Audition RMS计算原理解析
分贝(deci-Bel, dB)是语音中一个比较常见的概念,经常听别人说声音多少dB,但是有时候会发现,dB一会儿是正的一会儿是负的,让人一头雾水,摸不着头脑,我们在震惊!这个声音25岁以上听不到这篇文章中讲过几种dB的区别,正的dB用分贝仪测量,负的dB用音频软件(如Audition)查看,那么Audition等音频软件展示的dB是如何计算出来的呢?原创 2023-09-15 14:24:58 · 569 阅读 · 0 评论 -
清华大学LightGrad-TTS,且流式实现
针对BZNSYP和LJSpeech提供训练脚本。原创 2023-09-13 14:29:28 · 222 阅读 · 0 评论 -
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
语境偏置(Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“热词”)上的识别准确率。在许多ASR场景中,待识别语音中可能会包含训练数据中数量很少或完全没出现的短语,例如一些领域专有名词、用户通讯录中的人名等,这些短语的识别准确程度对用户体验或下游任务的影响很大,但对于在通用数据上训练ASR系统来说又难以完全正确识别。因此语境偏置方法具有重要价值,旨在提升在这些“热词”上的识别准确率。原创 2023-09-12 16:57:31 · 1054 阅读 · 0 评论 -
Diffusion-VITS:VITS与Grad-TTS的融合
Grad-TTS的核心思想:把diffusion当做一个postnet(或者Plug-In)用于特征增强。因此,它可以是一种通用模块应用于任何网络中,典型的作为FastSpeech2的后处理模块。这里,作者以VITS的SVC场景为例,提供Grad-TTS融合进VITS的思想和代码。原创 2023-09-11 15:31:25 · 703 阅读 · 1 评论 -
论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用
近日,实验室三篇论文被语音研究顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)录用,一篇论文被重要期刊IEEE Signal Processing Letters (IEEE SPL)录用,论文方向涉及说话人识别中的对抗攻击、基于扩散模型的跨语种情感迁移语音合成、语音转换中基于多层级韵律建模的风格迁移、基于语言模型的语音转换。现对四篇论文工作进行简要介绍。原创 2023-09-08 13:55:28 · 406 阅读 · 0 评论 -
All In One!Meta发布SeamlessM4T,支持100种语言,35种语音、开源、在线体验!
多语言识别翻译的研究一直都是学术界研究的重点。目前全球有几千种语言,在全球化背景下不同语言人群之间的交流越来越密切,然而学习一门外语的成本是非常大的。前两年的研究主要集中在一对一、一对多的研究,然而当面对这么多的语言时,既需要「考虑模型准确率,还需要考虑语种的识别」。最近,随着人工智能大型自然语言模型的发展,利用统一模型实现多语种识别翻译来实现不同语种之间交流逐渐的变成了可能。原创 2023-08-25 11:37:23 · 837 阅读 · 0 评论 -
THUHCSI人机语音交互实验室9篇论文被语音旗舰国际会议INTERSPEECH录用
2023年ISCA国际语音通讯学会年会(2023 Annual Conference of the International Speech Communication Association, INTERSPEECH 2023)将于2023年8月20日-24日在爱尔兰都柏林召开,清华大学人机语音交互实验室(THUHCSI)将在本次会议上发表9篇论文。这些论文涉及语音合成、语音识别、语音增强、语音分离、视频配音等多个研究领域。原创 2023-08-23 14:23:38 · 155 阅读 · 0 评论 -
ICASSP 2023说话人识别方向论文合集
今年入选 ICASSP 2023 的论文中,说话人识别(声纹识别)方向约有64篇,初步划分为Speaker Verification(31篇)、Speaker Recognition(9篇)、Speaker Diarization(17篇)、Anti-Spoofing(4篇)、others(3篇)五种类型。原创 2023-08-21 11:07:56 · 516 阅读 · 0 评论 -
关于 Llama 2 的一切资源,我们都帮你整理好了
Llama 2 是一个由 Meta 开发的大型语言模型,是 LLaMA 1 的继任者。Llama 2 可通过 AWS、Hugging Face 获取,并可以自由用于研究和商业用途。Llama 2 预训练模型在 2 万亿个标记上进行训练,相比 LLaMA 1 的上下文长度增加了一倍。它的微调模型则在超过 100 万个人工标注数据下完成。原创 2023-08-18 10:40:11 · 336 阅读 · 0 评论