自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 openwebtext下载清洗教程

4. 数据清洗,删除掉少于 128 个token的文档,这一步会很久,我对以下代码进行了修改,使用12个线程同时运行,清洗后的数据从42G变成了11G。将数据输出文件名为 my-gpt2_text_document.bin 和 my-gpt2_text_document.idx,用于GPT2预训练使用。3. 将文件夹下的所有txt文档合并成一个大的json文件,记得在运行以下代码时添加--data_path和--output_file参数。有疑问或者需要上述文件的,包括需要清洗后的数据集私信我。

2024-05-02 22:54:39 401

原创 docker编译go get代码时报dial tcp xxx.xxx.xxx.xxx io timeout错误

然后我就单独使用docker build -t my_test --network=host 去构建Docker,发现是可以构建成功的,且不会报超时错误。我就发现主机是可以从代理网站go get 相关库的,既然我使用了主机网络那按道理来说构建容器时,应该也是可以go get到相关库也是可以构建成功的啊,我百思不得其解。然后此时在使用docker-compose up -d去构建容器就不会报超时错误了,就构建成功了。是告诉Docker构建时使用主机网络命名空间,而在Docker Compose中使用。

2023-10-14 14:54:20 266

原创 协同过滤算法之ItemCF和UserCF

基于物品的协同过滤算法实现

2022-09-01 19:46:44 2176 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除