目前已解锁场景:
-
SPEECHIO_ASR_ZH00000 :Leaderboard 调试集(经济、货币、金融)
-
SPEECHIO_ASR_ZH00001 场景:新闻联播
-
SPEECHIO_ASR_ZH00002 场景:鲁豫有约
获取方式:
支持平台:Linux / MacOS
'''
Step 1 克隆 leaderboard 代码仓库:
git clone https://github.com/SpeechColab/Leaderboard
cd Leaderboard
Step 2 下载测试集:
ops/pull dataset SPEECHIO_ASR_ZH00002
'''
若日后上述下载过程有变更,则以 repo 中 README.md 说明为准。
数据说明:
-
格式:
-
audio:16k16bit mono wav
-
label: 为方便使用,测试集的发布准备了两套 label 格式:
-
格式1 metadata.tsv:包括音频路径,音频长度,文本标注等字段
-
格式2 Kaldi : wav.scp & trans.txt
-
-
-
数据集可直接在 leaderboard 中使用,方便SpeechIO 的读者以及厂商复现、核对评测结果,欢迎合理的修改建议和 Pull Request。
费用:
分发采用了商用的阿里云对象存储服务,大量的数据分发会对 SpeechIO 产生高额流量费用。