【Scrapy-02】图片网站的爬虫开发技巧和案例

1、主要用到的技巧。

——绕过反爬的一些设置主要在settings.py里面,这个案例用了三个设置。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

——有些网站采用了懒加载,这个懒加载我们直接爬取首页是爬不到的,需要拿到懒加载的网址,然后手动请求一下这个网址,然后分析这个网址的response

# 这边直接通过接口获得频道连接
start_urls = ['xxx']

——有的时候,懒加载的response可能是个json形式,而且里面还有很多转义的标识符\,这个时候,我们可以用python字符串的replace方法处理一下。

# 拿到的链接需要处理一下转义字符
cateurl = cateurl.replace("\/", "/")

——下载图片的方法在urllib.request下面,所以导入包的时候需要注意。

import urllib.request

urllib.request.urlretrieve(url,filename)

2、案例里面去掉了具体的网站信息,爬虫仅供学习用。

下载地址:用scrapy爬取下载某图片网站的全部图片

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值