第一步,使用split切分json文件
我的文件是18G,所以设置了切分成每个文件1000000行
split -l 1000000 /Users/eda/Desktop/v3.1_oag_publication_1.json output/output_
split参数可见:
这时候生成的文件是文本文档,命名是output_aa,output_ab,…
第二步,重命名文件
首先切换到output文件夹:
cd output
然后重命名:
for file in *; do mv "$file" "$file.json"; done
完成!可以快乐处理了
(在colab使用python直接读取大的json会爆RAM)