作者:廖祥俐
策划:望宸
网易云音乐最初的音视频技术大多都应用在曲库的数据处理上,基于音视频算法服务化的经验,云音乐曲库团队与音视频算法团队一起协作,一起共建了网易云音乐音视频算法处理平台,为整个云音乐提供统一的音视频算法处理平台。本文将分享我们如何通过 Serverless 技术去优化我们整个音视频处理平台。
本文将从三个部分向大家介绍:
现状:音视频技术在网易云音乐的应用情况,引入 Serverless 技术之前遇到的问题;
选型:调研 Serverless 方案时的考虑点;
落地和展望:我们进行了哪些改造,最终的落地效果和未来规划。
现状
作为一家以音乐为主体的公司,音视频技术被广泛应用于网易云音乐的众多业务场景里,为了更形象的让大家感受到,这里列举了5个常见的场景:
默认情况下,用户听到的是我们采用音频转码算法预先转好的标准化码率的音质,但由于流量有限或自身对于音质更高的要求,想要切换到差一些或更好的音质。
用户可以使用云音乐APP里面的听歌识曲功能去识别环境中的音乐,这背后使用到了音频指纹提取及识别技术。
在平台上的一些VIP歌曲,为了能给用户更好的试听体验,我们会做副歌检测,让试听直接定位到高潮片段,这里用到了副歌检测算法。
在云音乐的K歌场景里,我们需要对音频的音高进行展示并辅助打分,这里我们用到了音高生成算法去完善K歌的基础数据。
为了更好的满足云音乐平台上,小语种用户的听歌体验,我们为日语、粤语等提供了音译歌词,这里用到了自动罗马音的算法。
从上面的场景可以看到,音视频技术被广泛应用于云音乐的不同场景里面,发挥了重要的作用。
从我们的音视频技术做一个简单划分,可以分为三大类:分析理解、加工处理、创作生产,这些一部分是以端上SDK的方式,在端上进行处理;而更多的部分,是通过算法工程化的方式,采用后端集群部署管理,以服务的形式提供通用的音视频能力,而这部分是我们今天分享的重点。
音视频算法的服务化部署工作中,需要了解很多相关音视频算法的特点,如部署环境、执行时间、能否支持并发处理等,随着我们落地算法的增加,我们总结了以下规律:
算法的执行时间长:执行时间往往与原始音频的时长成正比,云音乐很多场景下音频、视频