少年好建-CSDN博客

原创 Oracle公共账户

下载JDK需要一个Oracle账号，自己注册比较麻烦，这里也是找了一个公共的账户：2696671285@qq.com密码：Oracle123

2020-10-10 16:26:41 3508 1

二进制每一个0或者每一个1，叫做一个bit（比特, 位）。十进制转换为二进制：除以2获取余数的方式二进制转换成十进制数据：使用8421编码的方式当然还有一种方式就是使用计算器，这个具体就不再介绍了hex-16进制dec-10进制oct-8进制bin-2进制存储单位位（bit），一个数字0或者一个数字1，代表一位。字节（Byte):每逢8位是一个字节，这是数据存储的最小单元。1 Byte = 8 bit1 KB = 1024 Byte1 MB = 1024 KB1 GB = 10

2020-10-10 16:08:37 1063

原创利用Python读取邮件读取所有邮件、已读邮件、未读邮件删除已读邮件

读取keyring密码前提是你已经通过yagmail设置好了密码，这里我们可以直接从keyring中读取密码：import keyringpassword=keyring.get_password("yagmail","J991737441@163.com")Python读取邮件对于163、126邮箱，需要提前配置一下，访问：http://config.mail.163.com/settings/imap/index.jsp?uid=J991737441@163.com，允许第三方客户端读取内容

2020-05-22 15:59:37 7521 7

原创 Scrapy爬虫框架的基本使用创建spider工程和spider爬虫 scrapy基本命令

Srcapy介绍Scrapy是一个健壮的爬虫框架，可以从网站中提取需要的数据。是一个快速、简单、并且可扩展的方法。Scrapy使用了异步网络框架来处理网络通讯，可以获得较快的下载速度，因此，我们不需要去自己实现异步框架。并且，Scrapy包含了各种中间件接口，可以灵活的完成各种需求。所以我们只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页上的各种内容。Scrapy爬虫的优点很多:内建的css选择器和xpath表达式。基于IPython交互shell，方便编写爬虫和debug。

2020-05-22 15:57:25 1677

原创 Scrapy爬虫框架通过下载器中间件进行添加代理和更换UA

中间件：1.下载中间件 2.爬虫中间件作用：系在中间件是处于引擎和下载器之间。批量拦截请求和响应。拦截请求：1.请求头的伪装 2.添加代理拦截响应：篡改响应数据（无用）。Scrapy中使用下载中间件，需要编写一个Downloader Middlewares和我们编写一个pipeline一样，定义一个类，然后在settings中开启。默认情况在middlewares.py文件中是存在下载中间件和爬虫中间件的，这里我们不用可以删掉，这篇文章主要介绍下载中间件的使用。我们可以精简一下middlew

2020-05-22 15:54:07 1389 2

原创 Scrapy 实现模拟登录-抓取登录之后的页面获取马蜂窝旅游的个人中心页面

为什么需要登录?为了我们可以获取到登陆后的页面。我们回顾requests是如何模拟登录的，有两种方式，第一种是直接携带cookies请求页面，第二种是找接口发送Post请求，然后存储Cookies，那么Selenium是如何模拟登录的，同样是找到对应的登陆页面，传入账户和密码等参数，登录之后获取Cookies，然后添加cookies，并请求登录之后的页面。Scrapy实现登录，也有两种方式，第一种就是直接携带Cookies，第二种是找到发送Post请求的url地址，带上账户和密码等信息，发送请求。S

2020-05-22 15:50:55 468

原创 Scrapy爬虫框架进行数据解析使用Scrapy内建的Xpath进行数据解析

按照前面几篇文章的做法，创建scrapy工程，进入到spiders文件夹中创建爬虫，然后修改settings.py文件，让它不遵从robots协议并更换UA，指定日志等级为error：USER_AGENT = 'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)'ROBOTSTXT_OBEY = FalseLOG_LEVEL='ERROR' 爬虫文件还是跟前面的一样，不过这里需要进行

2020-05-22 15:45:53 396

原创 Scrapy爬虫框架实现翻页提取数据定位下一页的URL并发送Get请求

scrapy如何实现翻页请求scrapy框架爬虫感觉最关键的就是实现翻页请求了。我们在使用requests模块的时候，想要实现翻页，就需要找到下一页的url地址，然后再次使用**requests.get()请求就可以了。那么在scrapy中，实现翻页操作，肯定首先需要找到下一页的url地址，然后构造一个关于下一页url地址的request请求传递给调度器，这里主要使用scrapy.Request()**方法发送请求，我们来看一下具体的参数:scrapy.Request(url , callbac

2020-05-22 15:44:24 2095

原创 Scrapy框架结合scrapy-reids组件实现分布式机群爬虫

分布式概念：使用多台机器搭建一个分布式机群，在分布式机群中共同运行同一组程序，让其对同一个网站资源进行联合数据爬取。原生的Scrapy框架是无法实现分布式的，原因有两点：1.调度器无法被分布式机群共享2.管道无法被共享如何实现分布式？使用Scrapy结合这scrapy-redis组件实现分布式scrapy-redis组件的作用：1.给scrapy提供可以被共享的管道和调度器2.安装：pip install scrapy_redis实现流程：1.创建工程2.cd 工程3.创建爬虫文件

2020-05-22 15:42:15 245

原创 Scrapy爬虫框架实现数据的备份数据存储到文件、MySQL、MongoDB、Redis中

如何实现数据的备份？一、数据的备份指的是将爬取到的一组数据存储到多个不同的载体（文件、MySQL、MongoDB、Redis）中二、持久化存储的操作必须要写在管道文件中（pipelines.py）一个管道类对应一种形式的持久化存储如果将数据存储到多个载体中则必须要有多个管道类我们前面讲过，要使用管道必须要在settings.py文件中开启管道，这里存在一个优先级，数值越小优先级越高。那么现在有一个问题，让两个管道类都接收到item且对其进行持久化存储，爬虫文件提交的item可以同时提交给多个管

2020-05-21 21:30:11 483

原创 Scrapy爬虫框架的基本流程数据流的传递过程五大核心组件的基本功能说明

通过前面几篇文章的学习，相信你可以简单的使用Scrapy框架了，那么你可能会对内部的原理、实现方式、各部分组件的功能有些模糊，这篇文章就来带大家详细认识一下！Scrapy爬虫框架的原理图Scrapy爬虫分为以下几个部分来协同工作：引擎(Scrapy Engine)：用来处理整个系统的数据流, 触发事务，是整个框架的核心。通过他的处理，来实现整个框架的正常工作。调度器(Scheduler)：用来接受引擎发过来的请求, 传入队列中, 并在引擎再次请求的时候返回.可以想像成一个URL（抓取网页

2020-05-21 21:27:01 721

原创 Scrapy爬虫框架实现增量式（数据更新）数据抓取借助redis的set类型

借助redis的set实现增量式爬虫。增量式意思就是监测网站数据更新情况，爬取最新更新出来的数据，核心就是去重。这里我们只通过redis的set集合来实现。实现增量：—-对爬取数据的url进行监测，使用一个记录表存储爬取过的数据的url，但凡记录表中存有的url，说明url对应数据已经爬取过了，否则表示没有爬取过为新数据。—-记录表：redis的set集合充当记录表，自带去重功能。插入成功为会返回1，失败输入的数据已经存在，返回0。以：https://www.4567kan.com/frim/i

2020-05-21 21:22:39 821

原创批量添加PDF加水印及PDF加密和解密

制作水印文件打开Word，制作一个只有水印的页面，放在你想放水印的位置，保存为PDF合并PDF水印先打开水印PDF文件和要添加水印的PDF文件，再创建一个PDF写入器然后对每一页都进行合并水印操作，.mergePage()方法合成的页面顺序：下面的内容.mergePage(出现在上面的内容)from PyPDF2 import PdfFileReader,PdfFileWriterfrom copy import copywatermark_pdf=PdfFileReader('水印.pdf'

2020-05-21 21:16:01 469

原创 selenium抓取淘宝商品信息实战练习携带cookie登录

对淘宝商品的信息进行提取，首先导入需要的模块，基本都是使用的下面的几个模块：from selenium import webdriver # 基本的模块from selenium.common.exceptions import TimeoutException # 超时报错from selenium.webdriver.common.by import By # 基本的元素查找from selenium.webdriver.support import expected_conditions as

2020-05-21 21:12:09 1632 1

模板君MuBanJun.CN