网址:http://www.4399.com/flash/
新建Scrapy后,会有自定义取好的名字
用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间,链接等信息
注意:
运行: scrapy crawl 爬虫名字
实例:scrapy crawl xiaoyouxi
编写pipeline.对数据进行简单的保存
数据传递到pipeline, 我们先看一下在pipeline中的样子.
首先修改settings.py文件中的pipeline信息
```python
ITEM_PIPELINES = {
# 前面是pipeline的类名地址
# 后面是优先级, 优先级月低越先执行
‘mySpider_2.pipelines.Myspider2Pipeline’: 300,
}
如下(图)
pipelines
items
class GameItem(scrapy.Item):
# 定义数据结构
name = scrapy.Field()
category = scrapy.Field()
date = scrapy.Field()
以下代码在spider中的parse替换掉原来的字典
item = GameItem()
item[“name”] = name
item[“category”] = category
item[“date”] = date
yield item
crapy使用小总结
至此, 我们对scrapy有了一个非常初步的了解和使用. 快速总结一下. scrapy框架的使用流程:
- 创建爬虫项目.
scrapy startproject xxx
- 进入项目目录.
cd xxx
- 创建爬虫
scrapy genspider 名称 抓取域
- 编写
item.py
文件, 定义好数据item - 修改spider中的parse方法. 对返回的响应response对象进行解析. 返回item
- 在pipeline中对数据进行保存工作.
- 修改
settings.py
文件, 将pipeline设置为生效, 并设置好优先级 - 启动爬虫
scrapy crawl 名称