寻找目标地址规律
目标地址:目标地址
在此之前,讲一个小技巧,要在IE浏览器中打开这个网址,在谷歌浏览器中打开这个网址是找不到答案图片网址的,Firefox没试过。
IE为什么行,我也不知道,参考网上大佬说法的。
IE浏览器打开网址------》F12查看网页源码,如下图:
把图片的链接复制下来找规律,如下图:
非常侥幸的发现只有pageno不同,那么pageno就表示页数:
写代码
import os
import random
import sys
import time
import requests
# 目标地址相同的前面部分
URLHead = "https://docimg1.docin.com/docinpic.jsp?file=2165435912&width=1500&sid=SUlUgAI*QIVqpV9S7unyU8MPJmU7j1D4cSQFIWnJ1qwzKcjQ-pCKWOBFGKSLpCs-&pageno="
# 目标地址相同的后面部分
URLend = "&pcimg=1"
page = 173
# 创建存储文件夹,根据自己需要修改
path = 'D:\PyCharmProject\SpiderDOC\编译原理'
isExists = os.path.exists(path)
if not isExists:
# 如果不存在则创建目录
# 创建目录操作函数
os.makedirs(path)
print(path + ' 创建成功')
# 按照页数爬
while page <= 173:
URL = URLHead + str(page) + URLend
print("正在爬%d页" % page)
with open(path + '/' + str(page) + '.jpg', 'wb') as file:
file.write(requests.get(URL).content)
print("已爬取%d页" % page)
# 产生随机数,休眠几秒,以免被封IP
waist = random.uniform(1, 8)
time.sleep(waist)
print("休眠%d秒" % waist)
page = page + 1
print("Spider!")