linux 超大csv文件首行大小写转换

场景:

一些源数据作为csv文件存放在服务器上,因之前使用的数据库是oracle和postgresql,大小写不敏感,因此csv文件的首行存放的是大写的字段名。现在数据库扩展使用大小写敏感的clickhouse,因此在入库前需要对csv文件的首行进行大小写转换。

思路:

文件过大,文件在windows下打不开。所以需要用命令来修改:

1、展示csv文件首行并转换为小写

2、将小写的行插入在原csv文件的第二行

3、删除大写的首行

过程:

演示用的test0.csv首行有三个字段,分别为AAA、BB_B、C(这是我随便起的)。将这个文件放在服务器上,我的存放路径为/root/myData/test0.csv

1、展示csv文件首行并转换为小写

head -1 test0.csv | sed 'y/ABCDEFGHIJKLMNOPQRSTUVWXYZ/abcdefghijklmnopqrstuvwxyz/'

 2、将第一步回显的小写的行插入在原csv文件的第二行(用java来说就是把aaa,bb_b,c作为入参传入sed方法中)

sed -i '1 a aaa,bb_b,c' test0.csv 

 这里可以看出,小写的表头已经插入到第二行了

 3、删除大写的首行

sed -i '1d' test0.csv

完成~ 

总结: 

分三个命令来实现linux 超大csv文件首行大小写转换,我这里使用的主要是sed命令,如果有更简洁的方法欢迎讨论~

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实现这个任务的核心思路是将Excel文件分块读取,然后逐块转换成csv格式并逐块写入磁盘。以下是一个可以实现此功能的Python代码: ```python import pandas as pd import os import time def excel_to_csv(excel_path, csv_dir): if not os.path.exists(csv_dir): os.makedirs(csv_dir) files = os.listdir(excel_path) for file in files: if file.endswith(".xlsx"): print("Converting {} ...".format(file)) t1 = time.time() filepath = os.path.join(excel_path, file) csv_filepath = os.path.join(csv_dir, "{}.csv".format(file.split(".")[0])) reader = pd.read_excel(filepath, chunksize=10000) writer = pd.DataFrame() for chunk in reader: writer = pd.concat([writer, chunk], axis=0) writer.to_csv(csv_filepath, index=False, encoding="utf-8") t2 = time.time() print("Converted {} to csv in {:.2f} seconds.".format(file, t2 - t1)) if __name__ == "__main__": excel_path = "/path/to/excel/files" csv_dir = "/path/to/csv/files" excel_to_csv(excel_path, csv_dir) ``` 在上述代码中,我们使用了pandas库来读取Excel文件,并使用了chunksize参数来控制每次读取的块大小,同时使用concat方法将所有块合并到一个DataFrame中。然后,使用to_csv方法将该DataFrame写入磁盘。具体代码可以根据实际需求进行调整。 需要注意的是,转换时间不得超过20分钟,这需要根据实际情况进行调整。如果Excel文件较大,建议增加块大小来提高转换速度,但要注意内存占用。 以下是一个示例,假设我们有100个Excel文件,每个文件大小为400M,保存在“/path/to/excel/files”目录下。我们将转换后的csv文件保存在“/path/to/csv/files”目录下。 ```python if __name__ == "__main__": excel_path = "/path/to/excel/files" csv_dir = "/path/to/csv/files" excel_to_csv(excel_path, csv_dir) ``` 当我们运行上述代码时,程序将开始转换Excel文件,并将转换后的csv文件保存在指定目录下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值