什么是scrapy框架
爬虫中封装好的一个框架。
功能:
1.高性能的持久化存储
2.异步的数据下载
3.高性能的数据解析
4.分布式
环境安装
环境安装:pip install scrapy
注:pip版本要在21版本以上的才可以使用以上方法进行安装,可以使用pip -V查看自己的pip版本
如何使用
创建工程:
scrapy startproject 项目名
创建完成后的目录如下:
创建成功后需要在spiders目录下创建一个爬虫文件
scrapy genspider 文件名 www.xxx.com(后面的爬虫路径可以先随便写,后续再修改)
在爬虫文件中进行代码编写
执行工程
scrapy crawl 爬虫文件名
示例代码
import scrapy
class FirstSpider(scrapy.Spider):
name = 'first'
# allowed_domains = ['www.baidu.com']
start_urls = ['https://www.shicimingju.com/book/sanguoyanyi.html']
def parse(self, response):
#response中封装的xpath返回的是一个selector类型的对象。使用extract可以将selector对象中data参数存储的字符串提取
title_list=response.xpath("//div[@class='book-mulu']/ul/li/a/text()").extract()
for item_list in title_list:
title_num=item_list.split("·")[0]
title_name=item_list.split("·")[1]
print(title_num+":"+title_name)