python批量处理txt文本，获取指定内容

最新推荐文章于 2025-04-11 09:51:08 发布

W~J~L

最新推荐文章于 2025-04-11 09:51:08 发布

阅读量1w

点赞数 21

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52136304/article/details/117399209

版权

python 正则表达式

python 专栏收录该内容

9 篇文章

订阅专栏

分享分享分享

那就是批量处理txt文本啦，获取里面指定内容，然后进行保存。刚开始拿到，发现无从下手。整理了思路后发现还是可以做的，嘿嘿！

首先文本里的内容是这样的：

在这里插入图片描述
要取的内容就是最后的那些数字。还好每个文档的格式都是规范的，其实不规范也是差不多的。因为我用的是正则来匹配，如下图：

然后就是开始写代码啦！这里就直接上代码了！因为注释全在代码上啦！

import os
import re

path = "D:\\大一下学期\\课程\\new\\"  # 找到txt所在位置
files = os.listdir(path)  # 得到文件夹下所有txt
i = 0  # 定义变量
for file in files:  # 让txt循环起来
    i += 1  # 用于后续查看完成进度
    position = path + '\\' + file  # 构造绝对路径
    # print(position)
    f1 = open(position, "r", encoding='utf-8')  # 打开并读取文件信息
    data = f1.read()  # 读取信息
    # print(data)
    parrern = "[123456789].*\-[0-9].[0-9]{1}.*.[0-9]{3}.*.[0-9]{3}"  # 用正则匹配所需要的信息
    str2 = re.findall(parrern, data)  # 查找所有符合条件的信息
    # print(str2)
    f2 = open("提取的信息.text", "a+", encoding="utf-8")  # 打开并写入信息
    # print(";".join(str2).replace(";", "\n"))
    f2.write(";".join(str2).replace(";", "\n") + "\n")  # 先转为非数组类型，再用分行输出
    print("完成" + str(i))
    f2.close()  # 有开就有关
    f1.close()  # 有开就有关

文中有解释不到位的地方，欢迎各位大佬们的指正哦。

之后还会继续分享自己学习路程，让自己不断成长！

冲呀冲呀冲呀！

博客等级

码龄5年

17
原创

256
点赞

715
收藏

72
粉丝

关注

私信

热门文章

分类专栏

Big Data 4篇
电脑日常 1篇
Vue 2篇
echarts 1篇
python 9篇

展开全部收起

最新评论

Python爬虫爬取图片
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/boost_spider 依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html
Edge浏览器的主页被360篡改的解决办法
2301_81060077: 问题是我电脑上压根就没有360呀老早就给删了，最近突然变成360的主页
hive shell中有许多日志信息的解决办法
2401_84717821: 怎么找到自己的hive路径啊
hive shell中有许多日志信息的解决办法
mmmmmmoney: 太牛了，弄好了
sqoop把hive中的数据导入mysql
weixin_41304123: 从HDFS导出到mysql，这是数据在hdfs的路径。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。