LLaMA-Factory如何对Tokenization步骤提速

最新推荐文章于 2024-05-01 13:33:50 发布

ybdesire

最新推荐文章于 2024-05-01 13:33:50 发布

阅读量938

点赞数 18

分类专栏：大语言模型 LLaMA-Factory 运维文章标签：人工智能运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ybdesire/article/details/134557033

版权

大语言模型同时被 3 个专栏收录

13 篇文章 2 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

5 篇文章 1 订阅

订阅专栏

问题

数据量稍微大一些，在运行这个步骤“Running tokenizer on dataset”就要等半小时以上，然后才知道后续是否会报错。Tokenization步骤看上去并没有使用到GPU，只是在CPU上运行的。
是否有什么方法对这个步骤进行加速呢，比如多CPU并发，具体要如何做到Tokenization步骤提速呢？

方案

tokenization 无法用 GPU 运行。
多 CPU 并发通过设置 preprocessing_num_workers=16 来实现。
另外可以通过设置 max_samples 来限制 debug 过程中的样本数量。

如下这样设置就能提速

    --preprocessing_num_workers 16 \

关注

18
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
LLaMA-Factory如何对Tokenization步骤提速

LLaMA-Factory如何对Tokenization步骤提速
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。