640小时印尼语手机采集语音数据

640小时印尼语手机采集语音数据

640小时印尼语手机采集语音数据

数据堂640小时印尼语手机采集语音数据 有效数据时长640小时

数据产品详情

格式 16bit,wav,单声道;txt;metadata
语音数据格式:手机录制语音:16kHz,16bit,wav,单声道
标注结果:txt
数据标签格式:metadata
录音环境 相对安静的室内,无回声
语音均录制于相对安静的室内,无回声
录音内容 通用类;交互类;家居命令;车载命令;数字类
1280人,每人朗读约450句,包含的语料类型为:通用类;交互类;家居命令类;车载命令;数字类;
语料类型:
通用类:领域不限的句子,来源广泛,包括日常口语、新闻等多种内容
交互类句子:涉及到音乐、娱乐、体育、出行、生活、社交等不同的类别
家居命令类句子:涉及到对智能家居设备的控制命令
车载命令类句子:涉及到对车载装置设备的控制
数字类:包含日期、货比、时间等内容;
人员 1280人;男性占比50%;18-25岁 60%;26-45岁35%;46-60岁5%;覆盖马来方言区
共有1280人参与录制,男性640人,占比50%;女性640人,占比50%

18-25岁 60%;26-45岁35%;46-60岁5%;上下浮动5%
地域分布: Daerah Khusus Ibukota Jakarta, Jawa Timur, Bali, Jawa Barat, Sumatera Selatan, Kalimantan Barat等

设备 1280人安卓手机、苹果手机
1280人采用苹果手机和安卓手机录制
手机:安卓手机、苹果手机,覆盖市面上常见品牌的主流机型,如三星、华为、小米、vivo等
语言 印尼语
录音人员均使用印尼语进行录制
标注内容 文本
根据音频的实际发音转写文本
应用场景 语音识别;机器翻译;声纹识别
可用于语音识别声学/语言模型训练或算法研究
可用于机器翻译语料库建设
可用于声纹识别模型训练或算法研究

数据存储结构 -

文件夹说明
data:数据均存放于此文件夹内
category:录制数据,包含语音数据、标注结果及数据标签等
doc:数据相关的说明文档均存放于此,包含:数据产品说明书、metadata等
GXXXX:录音人员编号,该文件夹数量与实际录音人员数量一致
sessionXXX:数据批次,存放该批次内的全部语音数据、对应的标注结果及数据标签
文件说明
数据产品说明书:数据产品介绍
wav:语音数据,一个数据批次(session)下包含多个语音数据
txt:标注结果,与语音数据一一对应
metadata:数据标签,与语音数据一一对应
3数据样例说明
样例均取自真实数据产品,是对完整数据产品的局部展示。640小时印尼语语音数据样例工共包含4名录音人员,其中男性2人,女性2人。
样例数据集只是对完整数据情况的局部展示,仅用于参考阅读。

官网:www.datatang.com

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值