scrapy爬虫框架基本使用

最新推荐文章于 2024-07-12 19:06:42 发布

mzf19980423

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量128

点赞数

分类专栏：爬虫文章标签： python java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45153932/article/details/111392713

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、创建scrapy项目

一般使用 scrapy startproject firstblood(项目名称) 创建。创建完以后的结果如图：
在这里插入图片描述

2、爬虫文件的创建

创建完项目，我们可以看到一个spiders的文件夹，爬虫文件都是创建在这个文件夹下，创建爬虫文件一般也使用命令scrapy genspider first www.xxx.com，创建完成以后的基本页面如图，我们一般将allowed_domains = ['www.xxx.com']这行代码注释掉，原因是因为，我们可能爬取的文件并不是以www.xxx.com为地址的，可能会解析不到想要的数据
在这里插入图片描述

除此之外，我们还将settiing.py文件中的ROBOTSTXT_OBEY = False改为False

当我们运行文件时，使用scrapy crawl first运行爬虫文件，我们也可以使用scrapy crawl first --nolog过滤掉日志信息，当我们不想看日志文件，也可以在setting.py文件中加入Log_Level = 'ERROR'

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
scrapy爬虫框架基本使用

1、创建scrapy项目一般使用 scrapy startproject firstblood(项目名称) 创建。创建完以后的结果如图：2、爬虫文件的创建创建完项目，我们可以看到一个spiders的文件夹，爬虫文件都是创建在这个文件夹下，创建爬虫文件一般也使用命令scrapy genspider first www.xxx.com，创建完成以后的基本页面如图，我们一般将allowed_domains = ['www.xxx.com']这行代码注释掉，原因是因为，我们可能爬取的文件并不是以www.xx
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。