先介绍一下torchtext的常用的组件
Data:常用的是里边的Field,然是是迭代器BucketIterator,Iterator等
Dataset:里边有很多的数据集,比如分类,问答等,其中的splits函数和split函数经常用。
1.Field
Field 包含一写文本处理的通用参数的设置,同时还包含一个词典对象,可以把文本数据表示成数字类型,进而可以把文本表示成需要的tensor类型
以下是Field对象包含的参数:
参数 | 描述 |
---|---|
sequential | 是否把数据表示成序列,如果是False, 不能使用分词 默认值: True. |
use_vocab | 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True. |
init_token | 每一条数据的起始字符 默认值: None. |
eos_token | 每条数据的结尾字符 默认值: None. |
fix_length | 修改每条数据的长度为该值,不够的用pad_token补全. 默认值: None. |
tensor_type | 把数据转换成的tensor类型 默认值: torch.LongTensor. |
preprocessing | 在分词之后和数值化之前使用的管道 默认值: None. |
postprocessing | 数值化之后和转化成tensor之前使用的管道默认值: None. |
*lower | 是否把数据转化为小写 默认值: False. |
tokenize | 分词函数. 默认值: str.split. |
include_lengths | 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False. |
batch_first | Whether to produce tensors with the batch dimension first. 默认值: False. |
pad_token | 用于补全的字符. 默认值: “”. |
unk_token | 不存在词典里的字符. 默认值: “”. |
pad_first | 是否补全第一个字符. 默认值: False. |
用法:
text_field = data.Field(tokenize='spacy', lower=True, include_lengths=True, fix_length=60)
Label_field = data.Field(sequential=False, use_vocab=False, dtype=torch.long)
#或者label_field = data.LabelField(dtype = torch.float)
重要的几个方法:
pad(minibatch): 在一个batch对齐每条数据
build_vocab(): 建立词典
参数 | 描述 |
---|---|
max_size | 词典的最大数目 |
vectors | 所使用预训练的词向量 |
min_freq | 保证词典中的词语最少出现多少次 |
unk_init | 词典中没有词语对应的向量统一用torch.Tensor.normal_ |
numericalize(): 把文本数据数值化,返回tensor
例如:
TEXT = data.Field(lower=True, tokenize='spacy', tokenizer_language='en_core_web_md')
2.Dataset
torchtext的Dataset是继承自pytorch的Dataset,提供了一个可以下载压缩数据并解压的方法(支持.zip, .gz, .tgz)
splits方法可以同时读取训练集,验证集,测试集
TabularDataset可以很方便的读取CSV, TSV, or JSON格式的文件,参数如下:
参数 | 描述 |
---|---|
path | 数据文件地址; |
format | 数据文件格式,可以是’csv’, ‘tsv’, or ‘json’; |
skip_header | 是否跳过数据文件的第一行; |
fields | 是一个包含很多个tuple的list,(name, field) |
例子如下:
train, val, test = data.TabularDataset.splits(
path='./data/', train='train.tsv',
validation='val.tsv', test='test.tsv', format='tsv',
fields=[('Text', TEXT), ('Label', LABEL)])
加载数据后可以建立词典,建立词典的时候可以使用与训练的word vector
TEXT.build_vocab(train, vectors="glove.6B.100d")
同时还可以这样直接加载内带的数据集:
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)
3.Iterator
Iterator是torchtext到模型的输出,它提供了我们对数据的一般处理方式,比如打乱,排序,等等,可以动态修改batch大小,这里也有splits方法 可以同时输出训练集,验证集,测试集
参数如下:
参数 | 描述 |
---|---|
dataset | 加载的数据集 |
batch_size | Batch 大小. |
batch_size_fn | 产生动态的batch大小 的函数 |
sort_key: | 排序的key |
train: | 是否是一个训练集 |
repeat: | 是否在不同epoch中重复迭代 |
shuffle: | 是否打乱数据 |
sort: | 是否对数据进行排序 |
sort_within_batch: | batch内部是否排序 |
device: | 建立batch的设备 -1:CPU ;0,1 …:对应的GPU |
使用方式如下:
train_iter, val_iter, test_iter = data.Iterator.splits(
(train, val, test), sort_key=lambda x: len(x.Text),
batch_sizes=(32, 256, 256), device=-1)
另外我们在想使用GPU加速的时候可以这样定义
device = torch.device('cuda' if torch.cuda.is_avaiable else 'cpu')