基础爬虫——以豆丁网《编译原理》（清华大学出版社第二版）课后习题答案为例

最新推荐文章于 2023-03-01 22:13:56 发布

AI AX AT

最新推荐文章于 2023-03-01 22:13:56 发布

阅读量558

点赞数 2

分类专栏：爬虫学习文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45758642/article/details/121281147

版权

爬虫学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

寻找目标地址规律

目标地址：目标地址

在此之前，讲一个小技巧，要在IE浏览器中打开这个网址，在谷歌浏览器中打开这个网址是找不到答案图片网址的，Firefox没试过。IE为什么行，我也不知道，参考网上大佬说法的。

IE浏览器打开网址------》F12查看网页源码，如下图：
在这里插入图片描述
把图片的链接复制下来找规律，如下图：
非常侥幸的发现只有pageno不同，那么pageno就表示页数：

写代码

import os
import random
import sys
import time
import requests

# 目标地址相同的前面部分
URLHead = "https://docimg1.docin.com/docinpic.jsp?file=2165435912&width=1500&sid=SUlUgAI*QIVqpV9S7unyU8MPJmU7j1D4cSQFIWnJ1qwzKcjQ-pCKWOBFGKSLpCs-&pageno="
# 目标地址相同的后面部分
URLend = "&pcimg=1"
page = 173

# 创建存储文件夹，根据自己需要修改
path = 'D:\PyCharmProject\SpiderDOC\编译原理'
isExists = os.path.exists(path)
if not isExists:
    # 如果不存在则创建目录
    # 创建目录操作函数
    os.makedirs(path)
    print(path + ' 创建成功')

# 按照页数爬
while page <= 173:
    URL = URLHead + str(page) + URLend
    print("正在爬%d页" % page)
    with open(path + '/' + str(page) + '.jpg', 'wb') as file:
        file.write(requests.get(URL).content)
        print("已爬取%d页" % page)
        # 产生随机数，休眠几秒，以免被封IP
        waist = random.uniform(1, 8)
        time.sleep(waist)
        print("休眠%d秒" % waist)
    page = page + 1
print("Spider!")

AI AX AT

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基础爬虫——以豆丁网《编译原理》（清华大学出版社第二版）课后习题答案为例

目录寻找目标地址规律写代码寻找目标地址规律目标地址：目标地址在此之前，讲一个小技巧，要在IE浏览器中打开这个网址，在谷歌浏览器中打开这个网址是找不到答案图片网址的，Firefox没试过。IE为什么行，我也不知道，参考网上大佬说法的。IE浏览器打开网址------》F12查看网页源码，如下图：把图片的链接复制下来找规律，如下图：非常侥幸的发现只有pageno不同，那么pageno就表示页数：写代码import osimport randomimport sysimport time
复制链接

扫一扫