PaddleSpeech
文章平均质量分 96
zhangdroid
种一棵树最好的时机是十年前,其次是现在
展开
-
【PaddleSpeech-学习笔记】第七章:声音合成
文本转语音,又称语音合成(Speech Sysnthesis),是指将一段文本按照一定需求转化成对饮的音频,这种特性决定了输出数据比输入长得多。文本转语音(TTS)是一项包含了语义学,声学,数字信号处理以及机器学习等多项学科的交叉任务。虽然辨识低质量音频文件的内容对人类来说很容易,但这对计算机来说并非易事。按照不同的应用需求,更广义的语音合成研究包括:语音转换,例如说话人转换、语音到歌唱转换、语音情感转换、口音转换等;唱歌合成,例如歌词到歌唱转换、可是语音合成。原创 2022-11-11 19:39:04 · 1277 阅读 · 0 评论 -
【PaddleSpeech-学习笔记】第二章:声音分类
想要完成一个任务,首先需要明确这个任务所需要用到的基本技巧还有底层原理。以AS(AudiosSet)为例,最基本的内容正是我们初中物理学的知识,这里直接应用维基百科的定义:其中最基本的声音特征就是:频率和音色。声音的产生是由发声音物体的震动产生的。声音又可以分为:基音和泛音。基音由发声物体的主体振动时发出;泛音由其余各部分的复合振动产生。基音可以相同的频率和振幅控制。但是泛音决定了物体的“音色”,由此可以分辨出不同的人和物发出的声音。通过音色可以进一步细分为:视觉图谱反映数字音频信号课程在这一部原创 2022-11-09 17:43:40 · 1748 阅读 · 0 评论