谷歌url采集

0x001-利用审查元素获取url然后保存到url.txt文件

控制台代码如下:

var tag=document.getElementsByClassName('r');

	for (var i=0;i<tag.length;i++){
		var a=tag[i].getElementsByTagName("a");
		console.log(a[0].href)
	}

在这里插入图片描述
在这里插入图片描述

0x002-利用python代码对采集到的url进行过滤

import re
pattern = re.compile("VM(.*):5")
pattern1 = re.compile("(\w+.*?//.*?)/")
urls = []
with open('url.txt','r')as f:
    for url in f:
        url = url.strip()
        url2 = re.sub(pattern,"",url)
        url3 = re.search(pattern1,url2).group(1)
        urls.append(url3.strip())
        

with open('url.txt','w')as a:
    result = "\n".join(urls)
    a.write(result)

0x003-成果如下
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值