前言
ip防屏蔽1和防屏蔽2代码也是一样的,也放在一起讲了,需要用到代理ip,在网上随便找找都能找到,一般注册都会送一定的金额,足够我们完成这两道题目了
题目网址:http://glidedsky.com/level/web/crawler-ip-block-2
题目描述
页面分析
当初我们做第一题时,本机ip就被采集了,连题目也看不了了,不过它的网页结构跟第一题是没变的,我们只要解决ip的问题,这道题目就很简单了,我这里使用的是天启ip,可以参考我的设置,完成两道题目,ip剩余500多,可用率还是很不错的
直接对生成的api链接发请求,返回的响应就是ip和端口号,注意拿到text文本后还需要去去掉后面的回车换行(\r\n)
ps:使用代理ip服务还需对本机ip设置白名单
源码
源码奉上:
import re
from time import sleep
import requests
from lxml import etree
from pymongo import MongoClient
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0',
}
login_url = "http://glidedsky.com/login"
#获取_token值
def get