多路数字语音合成理论和方法简介

最新推荐文章于 2023-03-24 10:14:03 发布

sheltonwan

最新推荐文章于 2023-03-24 10:14:03 发布

阅读量1.8k

点赞数 1

文章标签：终端产品嵌入式算法通讯电话

本文链接：https://blog.csdn.net/wxtsmart/article/details/2693338

版权

随着嵌入式处理器性能增强和网络技术发展，嵌入式多媒体通讯产品广泛应用，如IP电话、音频会议系统。面对多路语音输入，终端需要将多路数字语音合成一路输出，以模拟多人对话场景。本文探讨了处理多路音频流混合方案的注意事项，包括有声/无声检测来避免质量劣化，确保在不同处理器和时延要求下实现良好的语音合成效果。

摘要由CSDN通过智能技术生成

1、引言

随着嵌入式处理器的处理能力不断加强，网络技术的不断进展，嵌入式多媒体通讯已经迅速普及，其应用产品前途很越来越广泛，如IP电话，音频会议产品，多媒体教学产品。这些产品的一个基本功能就是语音采集（数字化），语音传输和实时播放。但由于成本和设计资源的限制，一个终端一般只可能有一路（立体声）输出能力，这在一对一通话是不会产生任何问题。但在多个终端同时通话时（如音频会议），如果接收到的数字语音信号不经特殊处理，就很难模拟出多个与会者在一个会议室进行对话的情形。这就要求终端有能力将收到到多路数字语音合成（混合）成一路输出。因此必须采取多路音频流混合方案。

2.设计思想：
2.1 混音的合理性和必要性：
   传输话音这种连续的、时间要求严格的流与传输别的数据不同。这涉及声波转换为数字信号，数字信号恢复为声波。虽然AD/DA由硬件完成，但录音和播放由用户设置。特别需要注意的是，不象典型的视频流在空间/时间域占有唯一的位置，在同一时间和位置的图象元素叠加是无任何意义的，但人耳可以感知在同一空间/时间播放多个音频流。这就是混音的合理性和必要性。混音就是用一个输出设备播放多个音频流。

2.2 混音方案的理论依据：
   ---- 在时域上语音是短时平稳信号，对语音信号进行处理的一个基本概念就是对语音样本以缓冲区为单位处理，即对输入的语音样本分帧。为了满足合理的延时要求，语音帧的长度一般是选10~20ms。
   ---- 当多个音频源在一个房间播放时，人耳听到的声波是各个声源声波的线性叠加，这正是模拟混音的基础。该事实表明数字话音的混音