问题
数据量稍微大一些,在运行这个步骤“Running tokenizer on dataset”就要等半小时以上,然后才知道后续是否会报错。Tokenization步骤看上去并没有使用到GPU,只是在CPU上运行的。
是否有什么方法对这个步骤进行加速呢,比如多CPU并发, 具体要如何做到Tokenization步骤提速呢?
方案
tokenization 无法用 GPU 运行。
多 CPU 并发通过设置 preprocessing_num_workers=16 来实现。
另外可以通过设置 max_samples 来限制 debug 过程中的样本数量。
如下这样设置就能提速
--preprocessing_num_workers 16 \