火山引擎 RTC 音频 AI 降噪的应用与实践

字节跳动视频云技术团队

已于 2022-08-19 14:31:00 修改

阅读量2.2k

点赞数 3

文章标签：火山引擎实时音视频音视频音频

于 2022-08-18 18:48:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaoxinyao9/article/details/126411808

版权

火山引擎 RTC 自研的深度学习降噪方案，如何应对游戏、互娱、会议等实时音视频沟通场景下的噪声影响？

摘要由CSDN通过智能技术生成

从视频会议到远程医疗，从连麦开黑到陪伴社交，疫情常态化加速了线下活动线上化，逐渐改变了人们的生产生活方式。其中，音频质量很大程度上影响着通话体验，而噪声又很大程度决定音频质量。比如，居家办公场景，就流传着“居家办公，必有邻居装修”的定律。也是因为装修声会很大程度影响参与效率，所以对居家办公的同学带来了很大的影响。火山引擎 RTC，集成了自研的深度学习降噪方案，来应对游戏、互娱、会议等实时音视频沟通场景下的噪声影响。

让我们看一下 RTC AI 降噪在会议、游戏、居家场景下的降噪效果对比。

会议场景降噪效果

游戏场景降噪效果

居家场景降噪效果

通过上面的对比效果可以明显看到不同噪声对线上生产、生活场景的影响，以及通过 AI 降噪达到的降噪效果。RTC AI 音频降噪采用了经典的CRN网络结构【参考文献 1 】作为降噪框架。CRN 网络结构由 Encoder、Recurrent Layer 和 Decoder 三部分组成。这种结构兼具了 CNN 的深层特征抽取能力和递归网络的记忆能力，表现出了比纯 CNN 网络或者纯 GRU 网络更好的降噪能力。

CRN网络结构

在具体落地到产品的过程中，我们在上述基础模型中，解决了实际场景中出现的五大问题：

1. 如何应对各种复杂的设备，多样的环境

2. 如何在满足低延时条件下，提升模型效果

3. 如何在满足低计算量条件下，提升模型效果

4. 如何平衡强降噪和高保真

5. 如何应对对音乐的损伤

通过解决上述问题，可以有效提升算法的速度、实时性和稳定性，保证在语音无损伤的情况下最大程度地实现噪声抑制，提升实时音视频场景，特别是会议、音乐等复杂场景下的互动体验。下面具体展开讲下我们是分别如何解决上述五大问题的。

一、训练数据增广

在我们实际生活中，降噪算法所需要面临的场景是非常复杂多样的。

拿“会议”场景举例，开会环境的多样性给降噪算法带来了不少挑战：在座位上开会，设备会采集到邻座工位上的说话声，此时我们期望算法能去除一定的背景说话人声；在会议室中开会，由于说话人离麦克风

最低0.47元/天解锁文章

字节跳动视频云技术团队

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
火山引擎 RTC 音频 AI 降噪的应用与实践

火山引擎 RTC 自研的深度学习降噪方案，如何应对游戏、互娱、会议等实时音视频沟通场景下的噪声影响？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。