一壶清玖-CSDN博客

原创 Python 调用IDM下载器

文章目录文章目录文章目录前言1.使用命令行调用IDM2.使用python调用IDM(1)os.system()(2)subprocess前言很久没更新了，最近这半年陆陆续续写了很多乱七八糟的脚本，在这里跟大家分享出来，顺便也加深一下理解。提示：以下是本篇文章正文内容，下面案例可供参考1.使用命令行调用IDM首先放上IDM的官网文档链接：https://www.internetdownloadmanager.com/support/command_line.html在这里做一个简单的总

2021-10-11 17:44:27 4853 2

原创 Python 网络爬虫：Scrapy框架下爬虫的简单思路

文章目录文章目录文章目录前言一、分析数据源1.思路分析二、代码部分总结前言最近写了一个词典网站的爬虫，响应以及获取数据的方式非常的简单，本以为会是个轻松的爬虫脚本，没曾想出了很多意料之外的问题，这样使得我对代码本身有了更加清晰的认知。提示：以下是本篇文章正文内容，下面案例可供参考一、分析数据源在爬取所需的资源时，首当其冲的就是要确认数据来源，数据具体在什么位置，数据的目录页，分类所进入的逻辑是什么等等。笔者在编写一个爬虫脚本之前往往会先思考这个问题，只要将逻辑考虑的清晰顺畅，后面我们所

2021-03-01 18:37:13 468

原创 scrapy常见中间件

scrapy常见中间件文章目录scrapy常见中间件前言1.随机UA2.代理中间件总结前言承接上一篇文章，这里介绍scrapy中几种常见的中间件1.随机UA在请求一个页面的时候，浏览器常常会检查你的请求的请求头，如果什么都不加直接请求，我们打印其请求头中的User-Agent字段： b'Scrapy/2.4.1 (+https://scrapy.org)'在不加请求头时，打印的结果为scrapy请求，所以我们需要对其进行包装，伪装成浏览器的样子去访问目标网站。下面便引出随机UA中间

2021-02-22 18:33:49 315

原创 Python 网络爬虫：Scrapy-redis 的简单配置及初应用

Python 网络爬虫：Scrapy-redis 的简单配置及初应用文章目录Python 网络爬虫：Scrapy-redis 的简单配置及初应用前言一、scrapy-redis是什么？二、使用步骤1.首先当然是安装redis啦2.scrapy-redis相关配置3.代码部分(1) 分析页面情况(2) 编写爬虫文件(3) 编写items文件：(4) 编写pipelines文件：(4) 编写setting文件：总结前言最近有一段时间没有更新自己的笔记了，一是因为这段时间工作忙一点在学很多新知识，二是

2021-02-22 15:48:08 843

转载一键格式化headers

格式化headers直接运行即可代码如下：import reheaders_str ="""这块把需要加标点的headers复制进去"""pattern = re.compile("^(.*?): (.*)$")for line in headers_str.splitlines(): print(re.sub(pattern, "\"\\1\": \"\\2\",", line))总结本文借鉴于weixin_49265805的博客，原文链接：https://blog.c

2021-02-20 09:49:18 630

原创 Python 网络爬虫：Scrapy-selenium配置及selenium接管浏览器

Scrapy-selenium及selenium接管浏览器下面笔者将继续介绍selenium以及将selenium配置到Scrapy中文章目录Scrapy-selenium及selenium接管浏览器前言一、selenium被检测二、Selenium方法被检测识别出来的应对方案1.接管浏览器三、Scrapy-selenium 配置总结前言继续学习继续向前走，别停下！一、selenium被检测在写爬虫时面对很多js 加载的页面，很多人喜欢用Senlenium+ Webdriver。可是已淘

2021-01-25 17:56:17 1727 1

原创 Python 网络爬虫：初使用selenium爬取百度图片

初使用selenium爬取百度图片文章目录初使用selenium爬取百度图片前言一、selenium是什么？二、使用步骤1.selenium的安装配置2.读入数据总结前言这周发生了很多悲伤的事情，一时间五味杂陈。不管让自己停下，怕自己停下就会忍不住悲伤，继续往前走吧，这也许就是旅行的意义。本文主要是初使用selenium，借助selenium方法来爬取百度的图片，在反爬机制日益增多的今天，像selenium这样的方法会给我们提供极大的便利。一、selenium是什么？Selenium

2021-01-25 15:42:00 1727

原创 python 对txt文本的去重处理

python 对txt文本的去重处理提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录python 对txt文本的去重处理前言1.引入库2.完整代码(读取单个txt文件)3.完整代码(读取多个txt文件)总结前言日常工作需要经常对数据进行去重的处理，在这里简单记录分享下1.引入库 import os2.完整代码(读取单个txt文件)代码如下：应事先在将txt文件放在对应路径下import ospath = './tutu'if not os.path.

2021-01-21 18:13:22 4332 1

原创将的脚本程序打包成一个exe可执行程序

将的脚本程序打包成一个exe可执行程序文章目录将的脚本程序打包成一个exe可执行程序前言1.引入库2.具体使用（1）准备工作：（2）打包程序：总结前言最近经常在空闲的时候写一些简单的小工具，正好学习到可以将脚本程序封装成可执行程序，这样不但可以自己用，也可以分享给别人用，省了配环境这一麻烦的环节。1.引入库 pip install pyinstaller2.具体使用（1）准备工作：一个写好的脚本以及一个ico格式的图标（注：http://www.ico51.cn/ 一个ico格式在

2021-01-21 17:35:14 1152

原创 Python 网络爬虫：爬取4K高清美图

爬取4K高清美图这篇爬虫主要是用来爬取网站高清4K图片，这也是笔者学初学爬虫的时候最先写一个的爬虫脚本，现在回过头来重新梳理一下，也算是对从前知识的一个总结，希望对大家有所帮助！文章目录爬取4K高清美图1、分析url以及页面结构2、开始编码2、优化程序总结爬取任意网站的的首要都是分析目标网站，我们需要做的主要流程如下：1. 访问目标网站，找到你需要的资源具体在某个页面，如何进入该页面，资源在具体的什么位置。2. 通过 F12 开发者工具，找到数据的获取接口，数据是在静态页面直接获取，还是异

2021-01-21 17:10:00 2737 13

原创 python关于pip的常见命令汇总

python关于pip的常见命令文章目录python关于pip的常见命令前言1.查看pip2.where pip3.安装库(1)直接安装(2)接入国内的信任源(3)先下载到本地，然后在通过本地安装4.pip的相关操作命令及对库的批量操作命令(1)查看pip的版本信息(2)pip更新版本(3)pip回退版本(4)查看指定包的信息(5)更新指定包的版本(6)卸载指定包(7)列出所有已安装的包及其版本信息(8)批量下载指定包(9)查看需要更新的包(10)查看需要更新的包(11)批量更新需要更新的包(12)更改p

2021-01-20 17:38:07 1072 2

原创 Scrapy框架的安装和简单使用

Scrapy框架的安装和简单使用Scrapy框架的安装和简单使用前言一、环境准备二、安装步骤1.安装相关库三、创建和简单介绍总结Scrapy框架的安装和简单使用提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Scrapy框架的安装和简单使用前言一、环境准备二、安装步骤1.安装相关库三、创建和简单介绍总结前言工欲善其事，必先利其器。这是我第一次

2021-01-20 11:26:12 574 3

泾溪石险人兢慎，终岁不闻倾覆人。却是平流无石处，时时闻说有沉沦。