批量修改文件夹下的txt文件内容,可用于VQA数据集制作

一、背景

最近在做一个数据集,但是数据集是不同人标注的,不同人标注的习惯和方式不同,因此需要对数据集做一些后处理。

二、问题介绍

做好数据集之后,需要对txt文本进行统计,统计的时候发现了下面的情况:

很明显里面的two和2是一个意思,但是他们却是按不同的内容来记录的,因此需要将他们改为一致。另外还有一些特殊情况,比如:

统计的文本中还有类似于制表符,单词前和单词后有空格,这些都是需要处理的。

三、解决方法

思路比较简单,直接遍历文件夹下所有txt文件,然后修改里面的内容就可以了,这里将'two'改为'2'为例,代码为:

import os
import re

def modify_txt(text_file_path, input_string, output_string):
    text_files = os.listdir(text_file_path)

    for text_file in text_files:
        print(text_file)
        with open(os.path.join(text_file_path, text_file), 'r+') as f:
            line_new = re.sub(input_string, output_string, f.read())
            f.seek(0)                           # 将指针位置指到文件开头
            f.truncate()                        # 清空文件内容
            f.write(line_new)

if __name__ == '__main__':
    modify_txt('./annoted_text/', 'two', '2')

执行上述文件,可以将文件夹里面的所有'two'改为'2'。下面是处理后的结果:

四、其他

需要注意的是,如果文本中有中文字符,有可能会报错,比如我的文件中个别有中文'?'而非'?',这样就报错了,不过可以根据输出的print(text_file)定位出哪个文件有问题,由于我的问题文件比较少,所以就直接手动修改了。

小软件Replace Plus:为多个文本文件内容批量替换 当我们的文本有些相同的文本内容要替换成其他内容时,可以运用到“文本替换”功能,这一功能在诸多的文本编辑软件都有,并不算稀奇。但是,如果你有多个文件,想要同时替换它们面的一些相同内容,显然不是其简单的替换功能就能够达到的。要想批处理完成N个文件的文本同时替换,我给大家推荐一个小工具——Replace Plus。它是一款绿色小软件,并不需要安装,直接双击打开即可使用。   在列表栏点击右键,选择“添加文件”即可将单独的文件添加进列表,如果您想要更加省事一些,就将欲替换文本的文件放置于一个文件夹下。右键点击选择“添加目录”,将那个文件夹添加进来,该目录下的所有文件就直接添加进来了,省去了一个一个添加的麻烦。   在“查找”栏内输入欲查找的内容,在“替换”栏输入欲替换的内容,点击“执行替换”,默认情况下会跳出“替换”对话框询问是否要替换,如果要一劳永逸地不必每个文件都跳出对话框来询问,可直接点击“替换全部”。   当列表的“备注”栏显示出“替换成功”,即表示已经将不同文件的相同内容替换完成。并且在列表还会显示替换成功的数量,一目了然(如图),很简便也很实用吧!要删除列表内容,直接选定欲删除的内容后,在右键菜单点击“删除”即可。  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值