![](https://img-blog.csdnimg.cn/20200831175040252.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Scrapy
文章平均质量分 92
Scrapy爬虫专栏
ㄏ、Forgetˊ
这个作者很懒,什么都没留下…
展开
-
Scrapy爬虫踩坑记录
Scrapy作为一个优秀的爬虫框架,尽管其体系已相当成熟,但实际操作中其实还是需要借助其他插件的力量来完成某些网站的爬取工作,今天记录一下博主爬虫路上的一些坑及解决方案,避免大家走太多弯路。一、DEBUG: Filtered duplicate request: GET xxx - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)对网站全站爬取数据时,遇到了这个报错。Scrapy会对reques原创 2020-12-17 17:29:51 · 1771 阅读 · 1 评论 -
一个Scrapy项目实现同时爬取不同的网站,网站内不同的站点
Scrapy作为一个优秀的Python爬虫框架,深受博主喜爱,尽管博主从事大部分工作是前端开发,但也会对爬虫,数据库以及后台的工作感兴趣。最近又有了新的任务,能够以相同的数据库表结构去存储爬取的数据;在以往,博主虽然说会爬虫,但也只是非常浅显的,一个Scrapy项目只能跑一个爬虫,而实际上是可以在一个Scrapy项目中写多个爬虫的。前期准备工作创建一个新的Scrapy项目,在工作间文件夹打开控制台,输入以下命令:scrapy startproject xxx(xxx为项目名)像上图,当你电脑已原创 2020-07-23 14:34:27 · 7283 阅读 · 8 评论