Scrapy&&案例

网址:http://www.4399.com/flash/

新建Scrapy后,会有自定义取好的名字

在这里插入图片描述

用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间,链接等信息

在这里插入图片描述
注意:
运行: scrapy crawl 爬虫名字
实例:scrapy crawl xiaoyouxi

编写pipeline.对数据进行简单的保存

数据传递到pipeline, 我们先看一下在pipeline中的样子.
首先修改settings.py文件中的pipeline信息
```python
ITEM_PIPELINES = {
# 前面是pipeline的类名地址
# 后面是优先级, 优先级月低越先执行
‘mySpider_2.pipelines.Myspider2Pipeline’: 300,
}

如下(图)

pipelines在这里插入图片描述在这里插入图片描述

items

class GameItem(scrapy.Item):
# 定义数据结构
name = scrapy.Field()
category = scrapy.Field()
date = scrapy.Field()

以下代码在spider中的parse替换掉原来的字典

item = GameItem()
item[“name”] = name
item[“category”] = category
item[“date”] = date
yield item

crapy使用小总结

至此, 我们对scrapy有了一个非常初步的了解和使用. 快速总结一下. scrapy框架的使用流程:

  1. 创建爬虫项目. scrapy startproject xxx
  2. 进入项目目录. cd xxx
  3. 创建爬虫 scrapy genspider 名称 抓取域
  4. 编写item.py 文件, 定义好数据item
  5. 修改spider中的parse方法. 对返回的响应response对象进行解析. 返回item
  6. 在pipeline中对数据进行保存工作.
  7. 修改settings.py文件, 将pipeline设置为生效, 并设置好优先级
  8. 启动爬虫 scrapy crawl 名称
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值