一、1亿组图文对,填补中文开源多模态数据集空白!还附带基础模型,来自华为诺亚方舟实验室
华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。
这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。
所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。
而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。
例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。
这一波可以说是填上了大规模中文多模态数据集的缺口。详情请看如下