python----使用re正则表达式刷选数据,去重,列表,取特定行数据(适用于web的html回包数据提取)

python—-使用re正则表达式刷选数据,去重,列表,取特定行数据(适用于web的html回包数据提取)

环境配置:对目标服务器的日志文件进行刷选特定数据(192.168.4.27)
/usr/local/tomcat_corp/logs/catalina.out

python脚本必须在该服务器上运行

1、筛选银行卡字段bankCode=

python代码:
[root@cdn tmp]# ls
findbankid_back_before.py  findbankid.py  findemail.py  findidno.py  findmobile.py  findreadlname.py
[root@cdn tmp]# 

[root@cdn tmp]# cat findbankid_back_before.py 
#!/usr/nbin/python  
# --*-- coding:utf-8 --*--  
import re  

lastlist = []
logyzm = open("/usr/local/tomcat_corp/logs/catalina.out").read()  
#print logyzm  
temp = logyzm.decode("utf8")  
findword = r'.{75}bankCode=.{100}'#取该字符串前75个字符以及其后面100个字符数据
pattern = re.compile(findword)  
results = re.findall(pattern,temp)  
for result in results:  
    #print result
    lastlist.append(result)

list = set(lastlist)#对重复数据进行去重处理
for l in list:
    print l
[root@cdn tmp]
脚本运行情况:
[root@cdn tmp]# python findbankid_back_before.py 
..............................
.............................
bjectDTO [t=[com.dinpay.dpp.domain.system.config.BankGateway@*****[id=3,bankCode=CCB,bankAccount=62148502********,rate=0.0,name=建设银行,status=1,remark=<null>,defaultFlag=0,maxLimitAmo
uency=0], com.dinpay.dpp.domain.system.config.BankGateway@*****[id=1002,bankCode=SPABANK,bankAccount=01120004********,rate=0.0,name=深圳平安银企直连代付,status=1,remark=<null>,defaultFlag=0,
tDTO [
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

徐为波

看着给就好了,学习写作有点累!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值