西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧。
镜像地址:https://www.blib.cn/url/xcdl.html
首先找到所有的tr标签,与class="odd"的标签,然后提取出来。
然后再依次找到tr标签里面的所有td标签,然后只提取出里面的[1,2,5,9]这四个标签的位置,其他的不提取。
最后可以写出提取单一页面的代码,提取后将其保存到文件中。
import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup
head = {“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/80.0.3987.100 Safari/537.36”}
if name == “main”:
ip_list=[]
fp = open(“SpiderAddr.json”,“a+”,encoding=“utf-8”)
url = “https://www.blib.cn/url/xcdl.html”
request = requests.get(url=url,headers=head)
soup = BeautifulSoup(request.content,“lxml”)
data = soup.find_all(name=“tr”,attrs={“class”: re.compile