自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Python 调用IDM下载器

文章目录文章目录文章目录前言1.使用命令行调用IDM2.使用python调用IDM(1)os.system()(2)subprocess前言很久没更新了,最近这半年陆陆续续写了很多乱七八糟的脚本,在这里跟大家分享出来,顺便也加深一下理解。提示:以下是本篇文章正文内容,下面案例可供参考1.使用命令行调用IDM首先放上IDM的官网文档链接:https://www.internetdownloadmanager.com/support/command_line.html在这里做一个简单的总

2021-10-11 17:44:27 4853 2

原创 Python 网络爬虫:Scrapy框架下爬虫的简单思路

文章目录文章目录文章目录前言一、分析数据源1.思路分析二、代码部分总结前言最近写了一个词典网站的爬虫,响应以及获取数据的方式非常的简单,本以为会是个轻松的爬虫脚本,没曾想出了很多意料之外的问题,这样使得我对代码本身有了更加清晰的认知。提示:以下是本篇文章正文内容,下面案例可供参考一、分析数据源在爬取所需的资源时,首当其冲的就是要确认数据来源,数据具体在什么位置,数据的目录页,分类所进入的逻辑是什么等等。笔者在编写一个爬虫脚本之前往往会先思考这个问题,只要将逻辑考虑的清晰顺畅,后面我们所

2021-03-01 18:37:13 468

原创 scrapy常见中间件

scrapy常见中间件文章目录scrapy常见中间件前言1.随机UA2.代理中间件总结前言承接上一篇文章,这里介绍scrapy中几种常见的中间件1.随机UA在请求一个页面的时候,浏览器常常会检查你的请求的请求头,如果什么都不加直接请求,我们打印其请求头中的User-Agent字段: b'Scrapy/2.4.1 (+https://scrapy.org)'在不加请求头时,打印的结果为scrapy请求,所以我们需要对其进行包装,伪装成浏览器的样子去访问目标网站。下面便引出随机UA中间

2021-02-22 18:33:49 315

原创 Python 网络爬虫:Scrapy-redis 的简单配置及初应用

Python 网络爬虫:Scrapy-redis 的简单配置及初应用文章目录Python 网络爬虫:Scrapy-redis 的简单配置及初应用前言一、scrapy-redis是什么?二、使用步骤1.首先当然是安装redis啦2.scrapy-redis相关配置3.代码部分(1) 分析页面情况(2) 编写爬虫文件(3) 编写items文件:(4) 编写pipelines文件:(4) 编写setting文件:总结前言最近有一段时间没有更新自己的笔记了,一是因为这段时间工作忙一点在学很多新知识,二是

2021-02-22 15:48:08 843

转载 一键格式化headers

格式化headers直接运行即可代码如下:import reheaders_str ="""这块把需要加标点的headers复制进去"""pattern = re.compile("^(.*?): (.*)$")for line in headers_str.splitlines(): print(re.sub(pattern, "\"\\1\": \"\\2\",", line))总结本文借鉴于weixin_49265805的博客,原文链接:https://blog.c

2021-02-20 09:49:18 630

原创 Python 网络爬虫:Scrapy-selenium配置及selenium接管浏览器

Scrapy-selenium及selenium接管浏览器下面笔者将继续介绍selenium以及将selenium配置到Scrapy中文章目录Scrapy-selenium及selenium接管浏览器前言一、selenium被检测二、Selenium方法被检测识别出来的应对方案1.接管浏览器三、Scrapy-selenium 配置总结前言继续学习继续向前走,别停下!一、selenium被检测在写爬虫时面对很多js 加载的页面,很多人喜欢用Senlenium+ Webdriver。可是已淘

2021-01-25 17:56:17 1727 1

原创 Python 网络爬虫:初使用selenium爬取百度图片

初使用selenium爬取百度图片文章目录初使用selenium爬取百度图片前言一、selenium是什么?二、使用步骤1.selenium的安装配置2.读入数据总结前言这周发生了很多悲伤的事情,一时间五味杂陈。不管让自己停下,怕自己停下就会忍不住悲伤,继续往前走吧,这也许就是旅行的意义。本文主要是初使用selenium,借助selenium方法来爬取百度的图片,在反爬机制日益增多的今天,像selenium这样的方法会给我们提供极大的便利。一、selenium是什么?Selenium

2021-01-25 15:42:00 1727

原创 python 对txt文本的去重处理

python 对txt文本的去重处理提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录python 对txt文本的去重处理前言1.引入库2.完整代码(读取单个txt文件)3.完整代码(读取多个txt文件)总结前言日常工作需要经常对数据进行去重的处理,在这里简单记录分享下1.引入库 import os2.完整代码(读取单个txt文件)代码如下:应事先在将txt文件放在对应路径下import ospath = './tutu'if not os.path.

2021-01-21 18:13:22 4332 1

原创 将的脚本程序打包成一个exe可执行程序

将的脚本程序打包成一个exe可执行程序文章目录将的脚本程序打包成一个exe可执行程序前言1.引入库2.具体使用(1)准备工作:(2)打包程序:总结前言最近经常在空闲的时候写一些简单的小工具,正好学习到可以将脚本程序封装成可执行程序,这样不但可以自己用,也可以分享给别人用,省了配环境这一麻烦的环节。1.引入库 pip install pyinstaller2.具体使用(1)准备工作: 一个写好的脚本以及一个ico格式的图标(注:http://www.ico51.cn/ 一个ico格式在

2021-01-21 17:35:14 1152

原创 Python 网络爬虫:爬取4K高清美图

爬取4K高清美图这篇爬虫主要是用来爬取网站高清4K图片,这也是笔者学初学爬虫的时候最先写一个的爬虫脚本,现在回过头来重新梳理一下,也算是对从前知识的一个总结,希望对大家有所帮助!文章目录爬取4K高清美图1、分析url以及页面结构2、开始编码2、优化程序总结爬取任意网站的的首要都是分析目标网站,我们需要做的主要流程如下:1. 访问目标网站,找到你需要的资源具体在某个页面,如何进入该页面,资源在具体的什么位置。2. 通过 F12 开发者工具,找到数据的获取接口,数据是在静态页面直接获取,还是异

2021-01-21 17:10:00 2737 13

原创 python关于pip的常见命令汇总

python关于pip的常见命令文章目录python关于pip的常见命令前言1.查看pip2.where pip3.安装库(1)直接安装(2)接入国内的信任源(3)先下载到本地,然后在通过本地安装4.pip的相关操作命令及对库的批量操作命令(1)查看pip的版本信息(2)pip更新版本(3)pip回退版本(4)查看指定包的信息(5)更新指定包的版本(6)卸载指定包(7)列出所有已安装的包及其版本信息(8)批量下载指定包(9)查看需要更新的包(10)查看需要更新的包(11)批量更新需要更新的包(12)更改p

2021-01-20 17:38:07 1072 2

原创 Scrapy框架的安装和简单使用

Scrapy框架的安装和简单使用Scrapy框架的安装和简单使用前言一、环境准备二、安装步骤1.安装相关库三、创建和简单介绍总结Scrapy框架的安装和简单使用提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Scrapy框架的安装和简单使用前言一、环境准备二、安装步骤1.安装相关库三、创建和简单介绍总结前言工欲善其事,必先利其器。这是我第一次

2021-01-20 11:26:12 574 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除