语音技术处理概述
语音助手执行流程
语音任务
语音任务包括语音合成、语音识别、语音增强、声音转换、语音识别、语音编码、声纹识别
- 语音合成,将任意文字信息转换为相应语音朗读出来
- 语音识别,让机器通过识别和理解语音信号转变为相应的任务和命令的技术
语音交互服务
以开放api的形式提供给用户、用户通过实时访问和调用api来获取语音交互结果
- 稳定可靠
- 简单高效
- 效果出众
语音交互子服务
- 定制语音识别
- 实时语音转写
- 定制语音合成
语音识别和语音合成
音频文件格式
MP3是压缩的音频,需要解压为纯波形的音频文件,如wav文件
语音识别
语音识别技术,也可以称为自动语音识别,将说话人的语音信号转换为计算机程序识别的信息,从而识别说话人的语音指令及文字内容的技术。
词汇识别过程
- 将帧识别为状态
- 将状态组合成音素
- 将音素组合成单词
语音识别算法
- 混合模型
- 端到端模型
语音合成
语音合成,又称为文语转换技术,将任意文字信息实时转换为标准流畅的语音朗读出来,