行业洞察 | 在家办公or上课，你的线上会议小助手听话吗？

最新推荐文章于 2024-08-20 13:35:45 发布

Magic Data

最新推荐文章于 2024-08-20 13:35:45 发布

阅读量137

点赞数

文章标签：人工智能机器学习语音识别

本文链接：https://blog.csdn.net/weixin_47718443/article/details/125138013

版权

自2020年开始，COVID-19几乎颠覆了我们的生活方式。全球线上办公、线上教学人员比例大幅度上升。

Facebook CEO马克·扎克伯格在召开在线员工大会时表示，Facebook将花5-10年的时间让半数员工实现永久远程办公。扎克伯格称，Facebook员工调查的数据显示，20%员工对疫情隔离措施解除后保持完全远程办公“非常感兴趣”，另外20%员工对这一选项“有些兴趣”，绝大多数员工希望能有更多的工作地点灵活性。

新冠肺炎的盛行成为了face-to-face meeting/working到online office/class的重大转折点。线上会议语音助手是线上会议/教学最大的应用，相比于普通的语音识别应用场景，线上会议场景语音识别存在更多的挑战。

由于线上会议或者线上教学上课，都是在家居环境中进行，家居噪声、设备多样化、多语种的混杂、网络延迟或者设备性能等影响，都会给实时语音识别、转录等带来很多的挑战。

1. 生活背景噪声的干扰

由于大家都是居家状态，孩子在家上网课，家长在家办公，所有人共处一栋房子，很容易产生相互干扰的噪声。无论是来自同一个家庭还是周围的环境，多个扬声器和噪音的背景喧嚣阻碍了视频或音频会议期间的沟通能力，在汽车上、手机上或与数字语音助理交谈时也有同样痛点。此外，家庭中儿童声音、语言和经常不稳定的行为比成人更加复杂多变。语音识别设备需要考虑到儿童的语言模式、语言结构和声调（随着年龄的增长会有很大的变化）等变量，更不用说句法、语法和发音等问题。

2. 混合语种切换

由于全球化的发展，人类实际日常交流中经常会有中文语境下英文单词夹杂的现象，这在学术上称为语种混杂（Code-switch），是当前语音识别技术面临的重要挑战之一。其技术难点主要表现为：嵌入语受主体语影响形成的非母语口音现象严重、不同语言音素构成之间的差异给混合声学建模带来巨大困难、带标注的混合语音训练数据极其稀缺。

3. 实时语音转录的困难

学生在线参与网课或者工作人员线上开会，都不如面对面上课或者开会时精力集中。因此实时的线上会议转写，做好会议提纲转录，是目前线上会议的刚需。实时转写不仅涉及实时性问题还有说话人日志和语音分离等困难，如果讨论激烈，或者背景声中有其他人的干扰声，这些任务的难度会更大。

任何基于深度学习的语音识别相关的任务都离不开数据的支撑。数据是深度学习的基石，而会议场景数据是解决会议场景语音识别相关挑战的基石。针对会议场景的语音识别相关任务，可以从相关场景数据录制和多任务算法集成框架方面落地实施。

1. 真实会议场景数据以及多语种语料库采集

深度学习相应场景问题导致的域的不匹配引发的语音识别准确率降低，都可以归结为数据的缺乏。以数据驱动会议场景语音识别的落地，是目前最为成熟、稳定的方案。数据驱动的技术路线也意味着对数据和计算的更高需求，例如以前需要几千数据跑出的结果，现在可能需要几万数据。

但是大量数据的采集会占用大量的人力、物力、资源。算法工程师的主要任务是研究算法，采集数据这样专业的事情就需要找专业的数据公司来做，作为全球领先的AI数据解决方案提供商，Magic Data致力于提供高质量的数据采集，数据垂类划分清晰，数据清洗仔细。针对商务场景，拥有多语种、多噪声的语音库。

2. 研究多任务算法集成框架

智能会议场景的语音识别主要涉及：说话人日志、语音分离、语音增强和语音识别模块，每个模块目前大部分研究工作都是分开训练，上线时在策略上进行集成。由于单独优化，就存在局部最优的问题，无法实现多个模块的整体最优，是学术界和工业界目前努力的方向。同时由于实时性的要求，也需要算法模型更小、更精准。但算法的研究还是要基于现有数据，目前有些论文基于模拟数据，不具备真实数据的特点，实际落地仍然会有差距。鉴于此，Magic Data为科研工作者提供用于研究特定会议场景的语音数据库。

未来语音科技发展的助推剂是数据，而高质量数据决定了算法工程师能够造出真正具有竞争力的产品。Magic Data（北京爱数智慧科技有限公司）将通过专业的数据服务团队，持续为算法工程师输送高质量的数据“原油”。