Scrapy&&案例

最新推荐文章于 2024-11-05 15:28:12 发布

追逐步伐

最新推荐文章于 2024-11-05 15:28:12 发布

阅读量569

点赞数 1

分类专栏： python&逆向爬虫文章标签： python 爬虫分布式中间件后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48321071/article/details/124001099

版权

python&逆向爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

网址：http://www.4399.com/flash/

新建Scrapy后，会有自定义取好的名字

在这里插入图片描述

用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间，链接等信息

在这里插入图片描述
注意：
运行： scrapy crawl 爬虫名字
实例：scrapy crawl xiaoyouxi

编写pipeline.对数据进行简单的保存

数据传递到pipeline, 我们先看一下在pipeline中的样子.
首先修改settings.py文件中的pipeline信息
```python
ITEM_PIPELINES = {
# 前面是pipeline的类名地址
# 后面是优先级, 优先级月低越先执行
‘mySpider_2.pipelines.Myspider2Pipeline’: 300,
}

如下（图）

pipelines

items

class GameItem(scrapy.Item):
# 定义数据结构
name = scrapy.Field()
category = scrapy.Field()
date = scrapy.Field()

以下代码在spider中的parse替换掉原来的字典

item = GameItem()
item[“name”] = name
item[“category”] = category
item[“date”] = date
yield item

crapy使用小总结

至此, 我们对scrapy有了一个非常初步的了解和使用. 快速总结一下. scrapy框架的使用流程:

创建爬虫项目. scrapy startproject xxx
进入项目目录. cd xxx
创建爬虫 scrapy genspider 名称抓取域
编写item.py 文件, 定义好数据item
修改spider中的parse方法. 对返回的响应response对象进行解析. 返回item
在pipeline中对数据进行保存工作.
修改settings.py文件, 将pipeline设置为生效, 并设置好优先级
启动爬虫 scrapy crawl 名称

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。