【Scrapy-02】图片网站的爬虫开发技巧和案例

最新推荐文章于 2022-04-03 20:35:36 发布

喂-不吃素的熊宝宝

最新推荐文章于 2022-04-03 20:35:36 发布

阅读量397

点赞数

分类专栏： Python 文章标签：爬虫 scrapy 图片

本文链接：https://blog.csdn.net/weisubao/article/details/77370738

版权

Python 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

1、主要用到的技巧。

——绕过反爬的一些设置主要在settings.py里面，这个案例用了三个设置。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

——有些网站采用了懒加载，这个懒加载我们直接爬取首页是爬不到的，需要拿到懒加载的网址，然后手动请求一下这个网址，然后分析这个网址的response。

# 这边直接通过接口获得频道连接
start_urls = ['xxx']

——有的时候，懒加载的response可能是个json形式，而且里面还有很多转义的标识符\，这个时候，我们可以用python字符串的replace方法处理一下。

# 拿到的链接需要处理一下转义字符
cateurl = cateurl.replace("\/", "/")

——下载图片的方法在urllib.request下面，所以导入包的时候需要注意。

import urllib.request

urllib.request.urlretrieve（url,filename）

2、案例里面去掉了具体的网站信息，爬虫仅供学习用。

下载地址：用scrapy爬取下载某图片网站的全部图片

喂-不吃素的熊宝宝

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Scrapy-02】图片网站的爬虫开发技巧和案例

有些网站采用了懒加载，这个懒加载我们直接爬取首页是爬不到的，需要拿到懒加载的网址，然后手动请求一下这个网址，然后分析这个网址的`response`。
复制链接

扫一扫

专栏目录