爬取古诗文网站 - scarpy - python爬虫案例
需求: 爬取古诗文网站中的 诗词的 标题 作者 朝代 内容 以及翻页 并保存
第一步 页面分析
- ‘gushiwen.org’ ‘gushiwen.cn’
https://www.gushiwen.cn/default.aspx?page=2 第二页 (无视了)
https://www.gushiwen.org/default_1.aspx 第一页
https://www.gushiwen.cn/default_2.aspx 第二页
https://www.gushiwen.cn/default_3.aspx 第三页
通过页面结构分析 所有的诗词内从都是在 left 然后在去找它下面的 sons。然后在去遍历我们需要提取的数据
第二步 实现步骤
- 1 创建scrapy项目
scrapy startproject gsw
- 2 创建爬虫
scrapy genspider gs gushiwen.org
- 3 逻辑的实现
(一)准备程序
在terminal终端输入
scrapy startproject gsw
# 爬虫程序名最好不要和爬虫程序重名
scrapy genspider gs gushiwen.org
- 创建start.py文件,放在与scrapy.cfg同层目录下
# 要运行整个程序的话,只需要运行这个文件
from scrapy import cmdline
#cmdline.execute('s