TXT文本 切分 查找 替换 文件合并的大数据工具软件

例如 切分20亿行130GB的数据只需要31分钟,查找和替换还有合并操作的耗时均不会超过31分钟

运行环境:支持所有64位的Windows操作系统,所有64位的Linux操作系统和苹果操作系统

内存要求:最低8GB的内存

硬盘要求:建议使用固态硬盘,因为固态硬盘的速度比机械硬盘一般快10倍以上

磁盘剩余空间要求:本工具软件的共享保存目录的空间比被切分文件稍大即可

测试数据大小:20亿行130GB

  1. 首先在D盘新建一个空文件夹例如:testBigDataFile
  2. 在测试数据生成工具界面对应的栏位保存测试数据目录里粘贴D:\testBigDataFile\testBigData.txt
  3. 其它均保持默认值,直接点击按钮随机生成大数据测试文件

切分大数据文件:例如将20亿行的数据每隔500万行分割出一个小文件

1.被切分后数据的保存位置例如,我们需要手动提前建立一个空白的文件夹testSavePath,此文件夹里不要再建立子文件夹

2.使用本工具软件时选择被切分的文件后,计算130GB的数据有多少行数我们需要稍稍等一小会,

统计出此文件的20亿行后,参考这个20亿的总行数,我们根据自己的实际要求输入被分成小文件的行数

3.我们在切分操作之后,可以进入文件夹D:\testSavePath,直接打开每个小文件查看其内容,在不破坏文件行列格式的情况下,

我们可以直接可以打开每个记事本文件进行手动修改

20亿行的文件,每个小文件均为500万行,一共分成了400个小文件,大多数情况下,最后输出的那个小文件一般没有500万行数据

例如我们直接打开第1个小文件D:\testSavePath\1.txt查看数据的内容和以及它的格式,

以上400个小文件的格式与下面文件的格式均类似

在大数据文件中如何进行查找和替换?

首先必须要进行像上面那样的切分处理,然后在共享保存目录中对每个小文件进行查找和替换操作,

在这400个小文件中的查找和替换操作是按文件名的排列顺序自动一次连贯地进行的。

请注意,点击查找或者替换按钮 一次只能查找一个内容,一次也只能替换一个内容

接下来我们将演示如何去掉中文输入法中的中括号,如果这400个小文件之中有被打开的文件,

请务必关闭它们,否则无法进行替换操作,因为替换操作会自动删掉这400个小文件中的每个文件,

会把临时输出文件D:\testSavePath\tmp.txt重新命名为对应的数字名称文件:

建议在查找和替换操作之前先关闭本软件工具并且重新打开它

第1步:首先查找一下有没有左中括号【 ,然后查找一下有没有右中括号】,查找操作能告诉你查找的内容会在那些文件里出现

 

第2步:先查找内容是否存在,再决定是否有必要进行替换操作

直接打开其中一个文件例如400.txt ,我们会发现每行数据里的左中括号【 都被去掉啦

最后我们将演示如何将这400个被修改过的小文件按数字文件名的排列顺序合并成大数据文件

注意:合并操作与替换操作一样,我们需要关闭共享存储目录中所有已打开的小记事本文件,

例如用记事本直接打开的或者用其它编辑软件打开的,在合并之前,请将需要合并的文件全部

复制到共享存储目录中,请使用数字给文件重新命名,以确保文件内容合并前后顺序。

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值