“黑客”入门——爬虫scrapy初体验

本文介绍了Python爬虫框架Scrapy的安装、项目创建、启动爬虫、设置调整、shell模式的使用以及crawl模式的操作。通过实例展示了如何在shell模式下运用CSS选择器,并提供了简单的Scrapy爬虫代码。Scrapy是一个强大的类似Django的爬虫框架。
摘要由CSDN通过智能技术生成
欢迎关注,敬请点赞!

安装scrapy

pip install scrapy

如果需要安装C++,可以先下载安装twisted:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted(选择对应的python版本)。

创建项目

需要在项目根目录下,如D:\Python\spider>

运行:scrapy startproject 项目名(如:lab),D:\Python\spider>scrapy startproject lab

启动爬虫

进入项目内:cd 项目名,D:\Python\spider>cd lab

scrapy genspider 爬虫名 爬取网址(不需要缀http://)

以SCRAPY爬虫实验室为例:scrapy genspider lab_scrapy lab.scrapyd.cn

调整设置

对settings.py文件中的爬虫君子协定和延时进行设置,也可以忽略。

# Obey robots.txt rules 爬虫君子协定(暂调为False)
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 3  # 延时

shell模式

返回顶部
可以使用shell模式,尝试不熟悉的命令,减少代码报错频率。

scrapy shell 爬取网址

以SCRAPY爬虫实验室为例:D:\Python\spider>scrapy shell http://lab.scrapyd.cn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值