Python Spider
python 爬虫相关技术总结
猿心不灭
这个作者很懒,什么都没留下…
展开
-
Redis数据库操作详细讲解
Redis数据库简介及基本操作一:简介redis 数据库是一个基于内存存储的数据库,所以,redis数据库的访问速度极快,因此,redis数据库可以做缓存系统,redis数据库一般用于做分布式的集群,可以提高网站的响应速度,redis数据库的数据库存储是用key-value形式存储的二:redis数据库优点redis数据库开源免费redis数据库支持多种数据结构,比如:字符串,列表,哈希表,集合(有序集合和无序集合)支持原子操作,支持事务支持发布和订阅支持数据过期功能对数据有高可用性和可原创 2020-12-18 11:14:57 · 614 阅读 · 0 评论 -
增量式爬虫详细讲解,附案例分析
爬虫之增量式爬虫一:什么是增量式爬虫爬虫策略:广度优先比如我们平时通过分页爬取的方式深度优先对于深度优先来说,必须使用增量爬虫增量的含义就是不断的增加,它通过我们提供的一个入口,不断的去爬取数据,从而达到使数据不断增加的目的。在我们平时的爬取过程中,会遇到一些问题:页面内容发生变更有些数据需要我们持久的慢慢的进行爬取如果我们的爬虫页面发生了变化,也能够持续稳定的将变化的数据更新到数据库中,同时又能保证爬虫再执行的过程中,数据量也在不停的增加,这样的爬虫就叫增量爬原创 2020-12-10 23:04:38 · 5046 阅读 · 2 评论 -
爬虫之Scrapy文件爬取
爬虫之利用scrapy进行文件爬取小白教程一:利用scrapy提供的管道爬取创建爬虫文件scrapy genspider file_savesettings.py加入文件相关的管道类ITEM_PIPELINES = { 'scrapy.pipelines.files.FilesPipeline':300,}# 下载文件时需配置路径FILES_STORE = "files"编写file_save.py文件import scrapy# 爬取matplotlib网原创 2020-12-08 23:56:15 · 1151 阅读 · 0 评论 -
爬虫之将Scrapy爬取数据保存至Mongodb数据库
爬虫之将Scrapy爬取数据保存至Mongodb数据库需求:以1药网中中西药品分类中的所有页面为目标,爬取每件商品的单价,名称以及评论在上一篇博客中,我们讲了Scrapy的基本使用以及各个文件该如何配置,与上篇博客中的案例相比,不同的地方就是在pipelines.py中对数据的处理不同。创建爬虫文件scrapy genspider yiyaowang yiyaowang.com在yiyaowang.py文件中先编写回调函数,先爬取一页的数据# -*- coding: utf-8 -*-原创 2020-12-08 10:07:57 · 1791 阅读 · 1 评论 -
爬虫之利用Scrapy进行图片的爬取
爬虫之利用Scrapy进行图片的爬取一:Scrapy自带管道方法爬取创建爬虫文件scrapy genspider image360 image360.com修改配置文件settings.py配置文件中的图片管道类是scrapy自定义好的,不需我们编写,直接用就行了ITEM_PIPELINES = { # 'reptile.pipelines.ReptilePipeline': 300, 'scrapy.pipelines.images.ImagesPipeline'原创 2020-12-07 23:58:34 · 2669 阅读 · 0 评论 -
爬虫之Scrapy框架最易懂教程
爬虫之Scrapy框架一:Scrapy简介 Scrapy是用纯python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常方便。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。二:Scrapy组成Scrapy Engine(引擎):负责spider、ItemPipelin原创 2020-12-05 17:50:20 · 968 阅读 · 14 评论 -
MongoD原生命令使用
MongoDB原生语句的使用查看当前数据库的版本号db.version()MongoDB Enterprise > db.version()4.4.2查看当前所在数据库dbMongoDB Enterprise > dbtest查看当前数据库连接的地址db.getMongo()MongoDB Enterprise > db.getMongo()connection to 127.0.0.1:27017查看所有数据库show databases原创 2020-12-02 23:47:10 · 280 阅读 · 1 评论 -
爬虫之js加密破解
爬虫之js加密破解一:JS加密简介 我们爬取数据时想要破解JS加密,首先要了解什么是JS加密,它是如何加密的,了解了它的原理后我们才能迅速,准确的破解它。(一):JS加密原理 JS全称JavaScript,是一种前端语言。就如同我们学的Python一样是一门计算机语言,只不过应用领域不同而已。通过这门语言可以在前端定义函数,进行数据和逻辑的计算,这也是JS能够加密的重要原因。当我们爬取一些简单的网站时,首先是向服务器发送携带参数的url请求,服务器根据我们的请求以及参数直接返回给我们数据。而进过原创 2020-11-29 21:37:19 · 2775 阅读 · 1 评论 -
爬虫之Selenium和chrome
爬虫之Selenium和chrome一:配置 上一篇结合selenium和无界面浏览器PhantomJS做了关于selenium的使用方法说明,但我们在生活中通常是用有界面浏览器进行工作和开发的,所以我们这里讲一下selenium如何控制谷歌浏览器进行操作,selenium的使用方法不变,唯一变的就是调用浏览器时需要变成谷歌浏览器。 用selenium控制谷歌浏览器时需要我们先下载selenium谷歌驱动器,下载网址为:https://npm.taobao.org/mirrors/chromedr原创 2020-11-29 13:56:03 · 775 阅读 · 2 评论 -
爬虫之Selenium的使用
爬虫之Selenium和PhantomJS一:Selenium selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上的某些动作是否发生。只不过操作指令不是通过键盘和鼠标进行获取,而是以脚本中的命令代替了键盘和鼠标。比如说我们在浏览一个网站的时候,会通过键盘输入搜索内容,通过鼠标点击“搜索”来进行搜索操作,这些实现的原理其实是点击了一个<a>标签或是<button>标签原创 2020-11-26 21:35:35 · 335 阅读 · 0 评论 -
爬虫之Xpath便捷获取页面元素
爬虫之Xpath的使用一:两种导入etree的方式直接导入# 此种导入方式可能会报错,但不影响使用from lxml import etree正规导入from lxml import htmletree = html.etree二:xpath方法定义一个字符串# 定义字符串str = '<bookstore>' \ '<book>' \ '<title lang="bng" src原创 2020-11-25 13:49:16 · 2000 阅读 · 2 评论 -
爬虫之使用代理ip爬取
爬虫之代理ip的应用 在爬虫的过程中,我们经常会遇见很多网站采取了防爬虫技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。 如果一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip问题。 爬虫使用ip代理的案例import requests# 定义请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWeb原创 2020-11-21 23:39:11 · 2890 阅读 · 1 评论 -
爬虫之Json模块的应用
爬虫之Json模块的应用一:json简介 JSON(JavaScript Object Notation):是一种轻量级的数据交换格式。JSON数据格式类似与python中的字典 {} 花括号表示对象 [] 中括号表示数组 “” 双引号内是属性或值 : 表示后者是前者的值(这个值可以是字符串,数字,也可以是另一个数组或对象) JSON格式数据查询举例:# 变量格式为一个对象,key为一个字值,value是一个数组var persons = { "person":[ {"n原创 2020-11-21 23:34:29 · 826 阅读 · 0 评论 -
爬虫之cookie和session的应用
爬虫之cookie和session的应用一:Cookie和Session的简介为什么使用Cookie和Session http是一种无状态协议,每个请求都是完全独立的,客户端请求时服务器无法确认当前访问者的身份,服务器和浏览器为了进行会话的跟踪,必须主动去维护一个状态(告诉服务器前后两个请求是否是来自同一个浏览器)。这个状态需要通cookie和session来实现(通俗理解就是免去了每次登录都需要输入帐号密码的繁琐过程)。Cookie cookie是客户端请求服务器时,服务器向原创 2020-11-20 23:44:06 · 404 阅读 · 0 评论 -
爬虫之get请求基础
爬虫随笔—概述与get请求一:爬虫概述(一):定义 网络爬虫是一种按照一定的规则,自动去抓取万维网信息的程序或者脚本。简单的说就是用事先写好的程序去抓取网络上所需的数据,这样的程序就叫网络爬虫。(二):爬虫分类通用爬虫 通用网络爬虫是搜索引擎抓取系统(Baidu, Google, Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 缺点: (1). 通用搜索引擎返回的结果都是网页,而大多数情况下,网页里90%的内容对用户来说都是无原创 2020-11-19 23:50:09 · 2417 阅读 · 0 评论