自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

模板君MuBanJun.CN

模板君MUBANJUN.CN,一个青少年喜欢的平台,分享探索发现有趣的内容,热门编程技术学习,从入门到放弃之路,Java全栈攻城狮,Python爬虫社区,每日分享你喜欢的一切!

  • 博客(18)
  • 收藏
  • 关注

原创 Oracle公共账户

下载JDK需要一个Oracle账号,自己注册比较麻烦,这里也是找了一个公共的账户:2696671285@qq.com密码:Oracle123

2020-10-10 16:26:41 3508 1

原创 计算机进制转换 存储单元

二进制每一个0或者每一个1,叫做一个bit(比特, 位)。十进制转换为二进制:除以2获取余数的方式二进制转换成十进制数据:使用8421编码的方式当然还有一种方式就是使用计算器,这个具体就不再介绍了hex-16进制dec-10进制oct-8进制bin-2进制存储单位位(bit),一个数字0或者一个数字1,代表一位。字节(Byte):每逢8位是一个字节,这是数据存储的最小单元。1 Byte = 8 bit1 KB = 1024 Byte1 MB = 1024 KB1 GB = 10

2020-10-10 16:08:37 1063

原创 利用Python读取邮件 读取所有邮件、已读邮件、未读邮件 删除已读邮件

读取keyring密码前提是你已经通过yagmail设置好了密码,这里我们可以直接从keyring中读取密码:import keyringpassword=keyring.get_password("yagmail","J991737441@163.com")Python读取邮件对于163、126邮箱,需要提前配置一下,访问:http://config.mail.163.com/settings/imap/index.jsp?uid=J991737441@163.com,允许第三方客户端读取内容

2020-05-22 15:59:37 7521 7

原创 Scrapy爬虫框架的基本使用 创建spider工程和spider爬虫 scrapy基本命令

Srcapy介绍Scrapy是一个健壮的爬虫框架,可以从网站中提取需要的数据。是一个快速、简单、并且可扩展的方法。Scrapy使用了异步网络框架来处理网络通讯,可以获得较快的下载速度,因此,我们不需要去自己实现异步框架。并且,Scrapy包含了各种中间件接口,可以灵活的完成各种需求。所以我们只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页上的各种内容。Scrapy爬虫的优点很多:内建的css选择器和xpath表达式。基于IPython交互shell,方便编写爬虫和debug。

2020-05-22 15:57:25 1677

原创 Scrapy爬虫框架 通过下载器中间件进行添加代理和更换UA

中间件:1.下载中间件 2.爬虫中间件作用:系在中间件是处于引擎和下载器之间。批量拦截请求和响应。拦截请求:1.请求头的伪装 2.添加代理拦截响应:篡改响应数据(无用)。Scrapy中使用下载中间件,需要编写一个Downloader Middlewares和我们编写一个pipeline一样,定义一个类,然后在settings中开启。默认情况在middlewares.py文件中是存在下载中间件和爬虫中间件的,这里我们不用可以删掉,这篇文章主要介绍下载中间件的使用。我们可以精简一下middlew

2020-05-22 15:54:07 1389 2

原创 Scrapy 实现模拟登录-抓取登录之后的页面 获取马蜂窝旅游的个人中心页面

为什么需要登录?为了我们可以获取到登陆后的页面。我们回顾requests是如何模拟登录的,有两种方式,第一种是直接携带cookies请求页面,第二种是找接口发送Post请求,然后存储Cookies,那么Selenium是如何模拟登录的,同样是找到对应的登陆页面,传入账户和密码等参数,登录之后获取Cookies,然后添加cookies,并请求登录之后的页面。Scrapy实现登录,也有两种方式,第一种就是直接携带Cookies,第二种是找到发送Post请求的url地址,带上账户和密码等信息,发送请求。S

2020-05-22 15:50:55 468

原创 Scrapy爬虫框架进行数据解析 使用Scrapy内建的Xpath进行数据解析

按照前面几篇文章的做法,创建scrapy工程,进入到spiders文件夹中创建爬虫,然后修改settings.py文件,让它不遵从robots协议并更换UA,指定日志等级为error:USER_AGENT = 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'ROBOTSTXT_OBEY = FalseLOG_LEVEL='ERROR' 爬虫文件还是跟前面的一样,不过这里需要进行

2020-05-22 15:45:53 396

原创 Scrapy爬虫框架实现翻页提取数据 定位下一页的URL并发送Get请求

scrapy如何实现翻页请求scrapy框架爬虫感觉最关键的就是实现翻页请求了。我们在使用requests模块的时候,想要实现翻页,就需要找到下一页的url地址,然后再次使用**requests.get()请求就可以了。那么在scrapy中,实现翻页操作,肯定首先需要找到下一页的url地址,然后构造一个关于下一页url地址的request请求传递给调度器,这里主要使用scrapy.Request()**方法发送请求,我们来看一下具体的参数:scrapy.Request(url , callbac

2020-05-22 15:44:24 2095

原创 Scrapy框架结合scrapy-reids组件实现分布式机群爬虫

分布式概念:使用多台机器搭建一个分布式机群,在分布式机群中共同运行同一组程序,让其对同一个网站资源进行联合数据爬取。原生的Scrapy框架是无法实现分布式的,原因有两点:1.调度器无法被分布式机群共享2.管道无法被共享如何实现分布式?使用Scrapy结合这scrapy-redis组件实现分布式scrapy-redis组件的作用:1.给scrapy提供可以被共享的管道和调度器2.安装:pip install scrapy_redis实现流程:1.创建工程2.cd 工程3.创建爬虫文件

2020-05-22 15:42:15 245

原创 Scrapy爬虫框架实现数据的备份 数据存储到文件、MySQL、MongoDB、Redis中

如何实现数据的备份?一、数据的备份指的是将爬取到的一组数据存储到多个不同的载体(文件、MySQL、MongoDB、Redis)中二、持久化存储的操作必须要写在管道文件中(pipelines.py)一个管道类对应一种形式的持久化存储如果将数据存储到多个载体中则必须要有多个管道类我们前面讲过,要使用管道必须要在settings.py文件中开启管道,这里存在一个优先级,数值越小优先级越高。那么现在有一个问题,让两个管道类都接收到item且对其进行持久化存储,爬虫文件提交的item可以同时提交给多个管

2020-05-21 21:30:11 483

原创 Scrapy爬虫框架的基本流程 数据流的传递过程 五大核心组件的基本功能说明

通过前面几篇文章的学习,相信你可以简单的使用Scrapy框架了,那么你可能会对内部的原理、实现方式、各部分组件的功能有些模糊,这篇文章就来带大家详细认识一下!Scrapy爬虫框架的原理图Scrapy爬虫分为以下几个部分来协同工作:引擎(Scrapy Engine):用来处理整个系统的数据流, 触发事务,是整个框架的核心。通过他的处理,来实现整个框架的正常工作。调度器(Scheduler):用来接受引擎发过来的请求, 传入队列中, 并在引擎再次请求的时候返回.可以想像成一个URL(抓取网页

2020-05-21 21:27:01 721

原创 Scrapy爬虫框架实现增量式(数据更新)数据抓取 借助redis的set类型

借助redis的set实现增量式爬虫。增量式意思就是监测网站数据更新情况,爬取最新更新出来的数据,核心就是去重。这里我们只通过redis的set集合来实现。实现增量:—-对爬取数据的url进行监测,使用一个记录表存储爬取过的数据的url,但凡记录表中存有的url,说明url对应数据已经爬取过了,否则表示没有爬取过为新数据。—-记录表:redis的set集合充当记录表,自带去重功能。插入成功为会返回1,失败输入的数据已经存在,返回0。以:https://www.4567kan.com/frim/i

2020-05-21 21:22:39 821

原创 批量添加PDF加水印及PDF加密和解密

制作水印文件打开Word,制作一个只有水印的页面,放在你想放水印的位置,保存为PDF合并PDF水印先打开水印PDF文件和要添加水印的PDF文件,再创建一个PDF写入器然后对每一页都进行合并水印操作,.mergePage()方法合成的页面顺序:下面的内容.mergePage(出现在上面的内容)from PyPDF2 import PdfFileReader,PdfFileWriterfrom copy import copywatermark_pdf=PdfFileReader('水印.pdf'

2020-05-21 21:16:01 469

原创 selenium抓取淘宝商品信息实战练习 携带cookie登录

对淘宝商品的信息进行提取,首先导入需要的模块,基本都是使用的下面的几个模块:from selenium import webdriver # 基本的模块from selenium.common.exceptions import TimeoutException # 超时报错from selenium.webdriver.common.by import By # 基本的元素查找from selenium.webdriver.support import expected_conditions as

2020-05-21 21:12:09 1632 1

原创 集合和关系模式 传统和专门的运算 数据库的基础知识

传统的集合运算包括关系的并、交、差和笛卡尔积,它们都是二目运算。在进行关系的并、交、差运算时,参与运算的关系R和S必须具有相同的属性,相应的属性取自同一个域,并且两个关系的属性排列次序一样,即R和S具有相同的结构,这是对关系进行并、交、差运算的前提条件,于是可定义以下四种运算。并(Union)两个关系的并运算是将两个关系中的所有元组构成一个新的关系,并运算要求两个关系属性的值必须一致,且...

2020-04-21 22:22:55 759

原创 虾米音乐爬虫实战分析 批量下载虾米音乐到本地

刚开始我是奔着抓API的,发现翻页的参数不好找,后来看到搜索出来的歌曲都存在当前url中,翻页只需更换浏览器中的url参数即可:https://www.xiami.com/list?page=1&query={“searchKey”:”张国荣”}&scene=search&type=song,那么为啥要费那么多事找接口呢?但是后来发现歌曲的下载地址存在于API接口中,呢我...

2020-04-08 20:26:22 930 5

原创 网站没有备案接入QQ快速登录 QQ互联官网 成功率100%

鳄鱼君申请QQ互联,为网站接入QQ快捷登录也是废了不少麻烦,为了让大家少走弯路,在这里整理下来给需要的站长朋友们。网站没有备案接入QQ互联,需要填写申请表格,非常的简单,首先确保你的域名是国际域名,后缀为.com、.top、.net或.org,.vip等等,然后需要下载国际域名的证书,这需要到购买域名的地方下载,如果不知道在哪里,可以询问域名购买处的客户小姐姐。腾讯云购买的域名可在域名管理页面找...

2020-04-08 20:22:28 3103 3

原创 scrapy_redis源码介绍和分析-scrapy爬虫框架

本文会对scrapy_redis爬虫的实现原理进行详细介绍,通过查看源码。在读这篇文章之前,你需要补充一些知识点,包括(redis数据库的命令、hashlib模块)scrapy_redis源码分析pycharm查看源文件的方式不再详细说明,如果不知道的可参考:Pycharm的基本使用。查看源码就需要找一个切入点,源文件肯定是非常的多,我们不能一个一个看。要使用scrapy_redis就需要在s...

2020-03-20 14:28:03 151

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除