使用python中的pandas对csv文件进行拆分

最新推荐文章于 2024-08-18 14:30:51 发布

孟意昶

最新推荐文章于 2024-08-18 14:30:51 发布

阅读量8k

点赞数 19

分类专栏： python记录文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/weixin_44999258/article/details/126789337

版权

之前写过一篇对大型csv文件进行拆分的文章
使用python对csv文件进行拆分
本来用着还挺顺手，直到最近在工作里，需要拆分七八百万行的csv文件，用原来的那套逻辑，居然要跑一个多小时，未免有些太慢了，于是就改用pandas处理，只需要两分钟就可以搞定

首先是导入库和确定文件路径

import pandas as pd
import datetime

start_time = datetime.datetime.now()  # 获取程序开始时间
path = r'D:\需要处理的文件.csv'
result_path_dir = r'D:\拆分后的输出文件路径'  #输出文件的路径

这里设置start_time是为了获取程序开始执行的时间，在程序结束的时候，可以方便查看这套逻辑总共运行了多久
2. 读取csv文件

data = pd.read_csv(path,encoding='GBK',dtype = str)

read_csv可以有很多参数，但在这次需求里，只需要目标文件、目标文件格式和字段类型就可以，本来这里是没加dtype参数的，但后来导出数据时，发现数字会变成科学计数法，不利于业务方使用，于是就可以在读取数据的时候，直接限制每个字段都是str类型，就可以避免这个问题
多说一句，目标文件我是从dbeaver导出来的，按默认导出方式，也会出现科学计数法的情况，可以通过更改配置的方式避免，这里也一并记录一下，把分隔符由默认的,改为\t,