爬虫
文章平均质量分 84
- 打小就隔路à
这个作者很懒,什么都没留下…
展开
-
多任务Python爬虫
多任务Python爬虫一、多任务简介二、python中的threading模块(开启多线程)三、池一、多任务简介1. 为什么要使用多任务爬虫?在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。2、多任务分类进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程之间数据不能共享。(利用多核)线程:线程是cpu调度的最小单位,一个进程中至少含有一个线程,线原创 2021-07-01 13:14:59 · 435 阅读 · 0 评论 -
10个python爬虫入门实例
10个python爬虫入门实例1.爬取强大的BD页面,打印页面信息2.常用方法之get方法实例,下面还有传参实例3.常用方法之post方法实例,下面还有传参实例4. put方法实例5.常用方法之get方法传参实例(1)6.常用方法之get方法传参实例(2)7.常用方法之post方法传参实例(2) 和上一个有没有很像8.关于绕过反爬机制,以zh爸爸为例9.爬取信息并保存到本地10.爬取图片,保存到本地1.爬取强大的BD页面,打印页面信息# 第一个爬虫示例,爬取百度页面import requests #原创 2021-07-01 09:01:49 · 530 阅读 · 0 评论 -
Python+Selenium基础入门及实践
Python+Selenium基础入门及实践一、Selenium+Python环境搭建及配置1.1 selenium 介绍1.2 selenium+Python环境配置二、元素定位及浏览器基本操作2.1 启动浏览器2.1.1 普通方式启动2.1.2 Headless方式启动2.1.3 加载配置启动浏览器2.2 元素定位2.2.1 class含有空格时解决方法:2.3 selenium三种等待方式2.3.1 强制等待2.3.2 隐性等待2.3.3 显性等待2.4 浏览器操作2.4.1 浏览器最大化、最小化2原创 2021-06-23 08:52:19 · 507 阅读 · 0 评论 -
python爬虫进阶|异步协程
python爬虫进阶 | 异步协程前言一、基本概念二、异步协程前言之前爬虫使用的是requests+多线程/多进程,后来随着前几天的深入了解,才发现,对于爬虫来说,真正的瓶颈并不是CPU的处理速度,而是对于网页抓取时候的往返时间,因为如果采用requests+多线程/多进程,他本身是阻塞式的编程,所以时间都花费在了等待网页结果的返回和对爬取到的数据的写入上面。而如果采用非阻塞编程,那么就没有这个困扰。这边首先要理解一下阻塞和非阻塞的区别。阻塞调用是指调用结果返回之前,当前线程会被挂起(线程进入非可原创 2021-06-22 13:38:20 · 935 阅读 · 0 评论 -
Python 爬虫进阶之多进程的用法
Python 爬虫进阶之多进程的用法前言一、多进程的优势二、多进程与单进程三、实例总结前言在python爬虫中,一般用的是多进程进行爬取,因为多线程并不能提高CPU的使用率,而且多线程其实是交替执行,多进程才是并发执行。多进程,顾名思义,多个进程并发执行,可以有效提高程序的执行效率,优点是非常稳定,即使有子进程崩溃了,主进程和其他进程依然可以继续执行,缺点是在windows下创建进程的开销比较大,而且如果进程太多,往往会影响整个系统的调度。一、多进程的优势为什么选用多进程而不选用多线程,这是考虑原创 2021-06-17 08:23:19 · 868 阅读 · 0 评论 -
Python 爬虫进阶之多线程的用法
Python 爬虫之多线程的用法前言一、Python的多线程二、线程安全的队列 Queue三、实例(糗事百科)前言在了解多线程的相关知识之前,我们先来看看为什么需要多线程。打个比方吧,你要搬家了,单线程就类似于请了一个搬家工人,他一个人负责打包、搬运、开车、卸货等一系列操作流程,这个工作效率可想而知是很慢的;而多线程就相当于请了四个搬家工人,甲打包完交给已搬运到车上,然后丙开车送往目的地,最后由丁来卸货。 由此可见多线程的好处就是高效、可以充分利用资源,坏处就是各个线程之间要相互协调,否则容易乱套(原创 2021-06-16 18:58:51 · 546 阅读 · 4 评论 -
python爬虫之bs4模块(超详细)
python爬虫之bs4模块一、bs4简介二、使用方法三、BeautifulSoup四大对象种类(1)tag(2)NavigableString(3)BeautifulSoup(4)Comment四、CSS选择器一、bs4简介即BeautifulSoup,是python种的一个库,最主要的内容就是从网页中抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以原创 2021-06-09 09:09:03 · 35023 阅读 · 8 评论 -
Python 爬虫利器之——Xpath
Python 爬虫利器 之 —— Xpath语法前言一、节点关系1.父(Parent)2.子(Children)3.同胞(Sibling)4.先辈(Ancestor)5.后代(Descendant)二、选取节点三、谓词四、通配符五、案例(猪八戒网)前言上一篇文章我们介绍了正则表达式的用法,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 正则表达式 使用不太习惯的话,可以尝试下 Xpath。XPath 是一门在 XML 文档中查找信息的语原创 2021-06-07 09:02:49 · 532 阅读 · 5 评论 -
python 爬虫之正则表达式 一看就会!!
正则表达式是什么都不知道?正则表达式还不会用?看完你就会了!前言1.元字符2.重复限定符3.分组4.转义5.条件或6.区间前言正则表达式在几乎所有语言中都可以使用,无论是前端的JavaScript、还是后端的Java、c#。他们都提供相应的接口/函数支持正则表达式。1.元字符元字符是构造正则表达式的一种基本元素。如下表格是几个常用的元字符:元字符说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空白符\d匹配数字\b原创 2021-06-02 08:04:29 · 479 阅读 · 0 评论