torchtext中的 TabularDataset加载 json 格式数据时,与加载tsv格式有一些不同
如果按tsv/csv方式加载,在
TEXT.build_vocab(train,max_size=50000) 时会报错:
'<' not supported between instances of 'Example' and 'Example'
根本原因是有一些区别:
在csv/tsv时,用如下语句加载数据:
train, test = TabularDataset.splits(path=DATA_DIR,format="tsv",train=TRAIN_DATA,test=TEST_DATA,skip_header=False, fields=fields)
在json时用如下语句:
train= TabularDataset.splits(path=DATA_DIR,format="json",train=TRAIN_DATA,skip_header=False, fields=fields_train)[0]
注意红色的部分,这是区别,核心是返回的对象不同。
train= TabularDataset.splits(path=DATA_DIR,format="json",train=TRAIN_DATA,skip_header=False, fields=fields_train)[0]