目标网址:http://www.daomubiji.com/
scrapy项目:
1. 创建项目
2. 创建爬虫
3. 定义item
数据内容:
1. 书的名称
2. 章节名称
3. 文本内容
4. 编写spider
1. 定义初始请求
2. 解析响应内容
5. 定义管道
6. 运行项目
开始实现步骤Scrapy框架
1. 创建项目CMD中可以实现
#scrapy startproject '项目名称'
scrapy startproject domu
cd domu
2. 创建爬虫
#scrapy genspider example example.com
#example:表示的是爬虫的项目名称
#example.com:表示的是初始化域名
#开始创建
scrapy genspider dm www.daomubiji.com
3. 定义item
-
首先使用PyCharm或者Visual Studio Code打开刚刚创建的domu项目找到times.py文件并实现定义:
-
数据内容:
1. 书的名称:book_title
2. 章节名称:chapter_name
3. 文本内容:content_text