学习目标
- 创建一个Scrapy项目
- 定义提取的结构化数据(Item)
- 编写爬取网站的 Spider 并提取出结构化数据(Item)
- 编写 Item Pipelines 来存储提取到的Item(即结构化数据)
1. 创建一个爬虫项目(scrapy startproject)
- 进入自定义的项目目录中,创建一个新的Scrapy项目。运行下列命令:
scrapy startproject myspider
- 其中, myspider 为项目名称,可以看到将会创建一个 myspider 文件夹,目录结构大致如下:
2. 明确目标(mySpider/items.py)
我们打算抓取:http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。