wtftx-CSDN博客

原创 js代码识别Selenium+Webdriver及其应对方案

今天学到的新知识，开发爬虫的过程中使用Selenium + Chromedriver 也能很轻松的被js识别。例：使用下面这一段代码启动Chrome窗口：from selenium import webdriverimport timedriver = webdriver.Chrome()time.sleep(300)driver.quit()在这个窗口中打开开发者工具，并定位...

2019-05-20 23:40:49 3249 6

原创 Scrapy的中间件（一）

主要内容参考《Python爬虫开发从入门到实战》中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。“中间件”本质上就是在中途劫持数据，做一些修改再把数据传递出去。中间件主要用来辅助开发，在Scrapy中有两种中间件：下载器中间件（Downloader Middleware）和爬虫中间件（Spider...

2019-05-20 11:13:15 1031

原创 scrapy 提取图片与信息（自定义管道）

利用 scrapy 框架提取图片以及有用的信息：python 3.7scrapy 1.6豆瓣top250电影scrapy的管道文件（pipelines）：pipelines: 在一个工程里面，在pipelines.py文件中定义管道，管道实际上就是一个类，而这个类定义了一些方法（属性），用来处理我们传进类（管道）中的数据，在处理完以后，再返回被处理以后的数据。多个管道合用，首先是将一个数...

2019-05-16 16:50:29 912 1

原创 scrapy 爬取图片

记录一下scrapy 框架爬取静态网页图片方法爬取网站煎蛋网动物区settings.py 之中进行设置BOT_NAME = 'pictures'SPIDER_MODULES = ['pictures.spiders']NEWSPIDER_MODULE = 'pictures.spiders'USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; ...

2019-05-11 19:33:43 556

转载 scrapy初探（抓取豆瓣top250）

抓取的内容：电影的title，director，评分，名言和详情页的电影简介，一共爬取五个内容。涉及主页的爬取和详情页的爬取。用scrapy可以很简单的实现这次爬取。此次涉及的除了scrapy框架外还有正则表达式的编写等知识。豆瓣250 之前也爬取过，用的selenium自动化，这次用scrapy爬取一次，用于scrapy的初探首先建立一个project：scrapy startproj...

2019-05-09 12:19:15 246

原创 scrapy基本框架 basic爬取小说一部

python 3.70scrapy 1.60windows 10.01爬取一部小说小说网址设置itemsimport scrapyclass Novel1Item(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrap...

2019-05-08 19:57:44 386

原创关于xpath选择器tips

from scrapy.selector import Selectortext = '''<html><body><div> <ul> <li class="item-0"><a href="link1.html">first</a></li> <...

2019-05-07 20:31:28 176

原创 crawlspider structure

记录一下相关参数方便查用可以继承四种类来建立scrapy爬虫：Spider类，CrawlSpider类， CSVFeedSpider类和XMLFeedSpider类。scrapy genspider -t modulewewant filename domain.com对于一些比较规则的网站用Spider类去进行简单自动化爬取，但是对于一些较为复杂或者说链接的存放不规则的网站可以使用 cr...

2019-05-05 10:59:30 205

原创 scapy robot.txt

在scrapy settings.py文件中有这样的一条默认开启的语句：# Obey robots.txt rulesROBOTSTXT_OBEY = True默认为True，就是要遵守robots.txt 的规则. 通俗来说， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在...

2019-04-29 12:34:16 816

原创 scrapy爬虫防止被反爬的5个策略

Preventing from being banned with scrapy structure1. delay timeimport time# firsttime.sleep()# second one, which can be used in setting.py or spiderdownload_delay = ***2. Ban cookies# Disable...

2019-04-28 19:47:17 3013

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-04-28 12:13:39 162