Python笔记004:一条龙服务:清洗代理IP数据、并测试是否可匿、可用全代码

设计思路:

由于某大爷网站上做了反爬设置,
上是免费代{过} {滤}理ip我是直接爬不下来,
只有先复制到txt文件中,然后进行数据清洗得到我想要的格式
然后在弯弯某.tw/上进行代{过}{滤}理IP可匿、可用测试,符合条件的IP写入输出文件

具体步骤如下:

1、将从网页上复制的IP地址保存到txt文件里面,然后进行数据清洗代码如下:

    with open('file/IP-DL/ip-01.txt', 'r+', encoding='utf-8') as fr, open('file/IP-DL/IP-02.txt', 'w+', encoding='utf-8') as fd:
        b = fr.read()
        b = b.replace('	', ',')
        b = b.replace(',,,\n', ',')
        b = b.replace(',,\n', ',')
        b = b.replace(',\n', ',')
        fd.write(b)
        fd.close()
        fr.close()
    with open('file/IP-DL/ip-02.txt', 'r', encoding='utf-8') as fd1,open('file/IP-DL/IP-03.txt', 'w+', encoding='utf-8') as fr1:
        for text in fd1.readlines():
            if len(text) > 10 and text.find('透明') == -1 and int(text.split(',')[5]) < 500:
                a1 = text.split(',')[0]
                b1 = text.split(',')[1]
                c1 = text.split(',')[5]
                a1 = a1.strip()
                b1 = b1.strip()
                c1 = c1.strip()
                d1 = a1+':'+b1+'\n'
                print('D1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值