Scrapy高级爬虫
一、基于CrawlSpider全站数据爬取(阳光问政数据爬取)
1、需求:爬取sun网站中的编号,新闻标题,新闻内容,标号。
- 分析:爬取的数据没有在同一张页面中。
2、全站数据爬取的方式:
(1) 基于Spider的手动请求
(2) 基于CrawlSpider的使用
-
创建一个工程
-
cd XXX
-
创建爬虫文件
scrapy genspider -t crawl xxx www.xxx.com
链接提取器:根据指定规则(allow=“正则”)进行指定链接的提取
规则解析器:
将链接提取器提取到的链接进行指定规则(callback)的解析操作 -
启动项目
scrapy crawl sun
3、项目实操
切换目录:
cd C:\Users\Administrator\PycharmProjects\pc_test\scrapy框架\
新建项目
scrapy startproject sunPro
新建项目文件sun.py
cd sunPro
scrapy genspider -t crawl sun www.xxx.com
目录
修改settings.py
sun.py
---------------------------------------------------------------------------------------------
---------------------------------------------------------------------------------------------
items.py
管道类pipelines.py
sett