1.创建数据集;
2.点击添加数据文件,把你所需要的数据处理成utf8格式的csv文件上传,并且将其命名成固定格式,如:训练集命名为train.csv,验证集命名为dev.csv;
3.创建一个与数据集名字一致的json文件,如我的数据集为Test125,我就创建一个名为Test125的json文件,用于指定训练集、测试集、验证集。如下:
{"default":{"train":{"meta":"train.csv","file":""},"test":{"meta":"","file":""},"validation":{"meta":"dev.csv","file":""}}}
并且也可以创建子数据集,使用向导模式。
ps:dataset_infos.json文件自己改不了,你按命名规范上传了文件后,可以看看文件里是否对应,如下:
{"default": {"features": {"sentence": {"_type": "Value"}, "label": {"_type": "Value"}, "dataset": {"_type": "Value"}}, "splits": {"train": {"name": "train", "dataset_name": "Test125"}, "validation": {"name": "validation", "dataset_name": "Test125"}}}}