1. Free ST Chinese Mandarin Corpus
• 在室内安静的环境中录制的,所有的话语都经过了仔细的转录和核对,精度较高。
• 语料库包含: 音频文件,转录,元数据。
2. Primewords Chinese Corpus Set 1
• 免费的,中文普通话,用手机录制,转录精度大于98%
• 转序和词句之间的映射以json格式提供
3. THCHS30
• 通过单个碳粒麦克风录取
• 内容全部是女生,文章以诗句为主。
4. ST-CMDS
• 内容以平时的网上聊天和智能语音控制语句为主
• 有男生有女生,适合多种场景下使用
5. MAGICDATA Mandarin Chinese Read Speech Corpus
• 移动端的录音。
• 录音者来自中国的不同区域
• 在安静的室内环境中进行
• 提供分段的成绩单
• 录音文本领域多样化
6. AISHELL
• 具有不同的口音
• 在安静的室内录制,同时使用三种不同设备进行录音。
• 手动转录率达到95%
7. MobvoiHotwords
他是商业智能扬声器手机的唤醒单词的语料库,它由关键字和非关键字组成
8. CMU-MOSEI
• 规模最大的三模态数据集
• 具有情感和情绪两个标签
• 但是每一个样本对应的可能不止一种情绪标签,对应的情绪强弱也不同
9. UR-FUNNY
• 包含文本、语音、图像三个模态
10. CH-SIMS
• 给出常规的文本、图片和语音
• 标签更加细致,不仅有最终的标签,还有各个模态的标签。
11. IEMOPCAP----最常用的数据集。