scrapy
LINPAOMO
Python,爬虫,Go
展开
-
scrapy使用middleware+selenium自定义cookies中间件
对于一些网站需要实时获取cooikes才可以爬取可以使用selenium来进行实时获取网站的cookies在scrapy不仅可以在spider中直接使用selenium,还可以通过中间件来实现。首先编写middleware.pyfrom selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesclass cookiesMiddleware:原创 2020-05-28 14:36:59 · 1059 阅读 · 0 评论 -
scrapy+selenium爬取网页数据并存入mongodb数据库
(一)安装selenium:pip3 install selenium(二)下载chromedriver使用chrome浏览器做自动化,根据本身浏览器的版本下载相对应的chromedriver可以到http://chromedriver.storage.googleapis.com/index.html 下载对应的版本(三)新建爬虫进入scrapy项目目录,新建爬虫,在spider...原创 2020-04-11 18:36:49 · 2888 阅读 · 0 评论 -
scrapy 自定义参数-a NAME=VALUE 中的value输入多个值
在scrapy的自定义参数时,在命令正常使用-a NAME=VALUE 命令,而value正常只能传入一个值,但是value会有很多值,例如:name的值可能是百度,谷歌,CSDN等,如果要同时他们需要写多个命令来运行,如果要使它们用一个命令中运行可以使用下面这种方法:def __init__(self, symbol='', *args, **kwargs): super().__init__(*args, **kwargs) self.symbol = symbol.split(','原创 2020-05-26 11:15:57 · 511 阅读 · 1 评论 -
scrapy使用自动义参数的方法
关于scrapy使用自定义参数主要是在命令上用crawl控制spider的同时加上 -a,从而做到自定义参数,例如:scrapy crawl spiderName -a symbol=symbol在spider中加入以下部分:import scrapyclass MySpider neme = 'name' def __init__(self, symbol='', *args, **kwargs): super().__init__(*args, **kwargs)原创 2020-05-09 14:50:41 · 293 阅读 · 1 评论