最近要用DNS Challenge2020(第一届)的数据集,发现github上是新版的,不是我所需要的版本。官方文档也比较混乱,故写此文,简单分享下2020dataset下载方法。
官方下载方法
github repo地址:
microsoft/DNS-Challenge at interspeech2020/master (github.com)
首先打开命令行,直接将repo clone下来:
git clone https://github.com/microsoft/DNS-Challenge.git
cd DNS-Challenge
下一步,安装并配置git lfs(Git Large File Storage)。2020版本dataset用git lfs管理数据,我们配置如下:
git lfs install
git lfs track "*.wav"
git add .gitattributes
官方文档中说要配置multiprocessing等等的cfg文件,这些都是和后续合成相关的,现在并不需要执行。我们接下来把branch切换到2020branch,就会自动开始下载了:
git checkout interspeech2020/master
命令行显示Updating files,表示已经开始下载,现在只需等待。时间较久,需要耐心。完成后,datasets/ 目录下就是下载到的数据集。
数据集分为人声语音和噪音两部分,需要自行合成带噪音的人声,以用于训练。后续具体的合成方法请参照官方文档。