明确实现思路:
实现思路:使用ASR(自动语音识别)技术,将语音转成文本,通过大模型生成文本,使用TTS(语音合成技术)将文本转成语音。实际上我认为最终的输出的英语口语是一致的,所以只要能够完成正常的语音对话即可。这样大模型的输出结果是AI输出文本和对应的语音。文本类的有极多。
寻找数据集:
Common Voice(据说是全球最大的数据集):
数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 31,176 小时的录音中,有许多条数据同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。 该数据集当前有 20,409 小时,124 种语言的语音数据,但我们在持续添加更多的语音数据和更多的语言。前往我们的语言页请求加入更多的语言或开始做出贡献。
英文数据集: 1.LibriSpeech ASR corpus:该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。 openslr.org
(这是英语演讲语料库,我觉得作为输出要更好)
其他
Mini LibriSpeech ASR corpus:用于回归测试的一个子集 openslr.org
2.TED-LIUM:openslr.org TED-LIUMv2:openslr.org TED-LIUM Release 3:openslr.org
3.VoxForge:该数据集是带口音的语音清洁数据集,对测试模型在不同重音或语调下的鲁棒性非常有用。 Free Speech... Recognition (Linux, Windows and Mac) - voxforge.org https://voice.mozilla.org/zh-CN/data
4.TIMIT数据集 百度云链接:百度网盘-链接不存在 密码:sqw7
5.Free ST American English Corpus:openslr.org
6.纯对话数据集英文对话数据集总结_有没有开放的英文评论数据-CSDN博客