![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
文章平均质量分 63
python爬虫知识点整理
Qi_Xi_Miao
python学习笔记记录
展开
-
gevent模块-多协程异步
定义可以进行多个爬虫任务,当一个任务在执行中遇到等待,就先执行另一个任务,提高效率,节省时间。安装Pip install gevent使用from gevent import monkey#从gevent库里导入monkey模块monkey.patch_all()#monkey.patch_all()能把程序变成协作式运行,就是可以帮助程序实现异步import geventimport timeimport requests#导入gevent、time、requestsst原创 2022-02-17 17:03:11 · 252 阅读 · 0 评论 -
定时模块schedule
安装第三方库,安装方式pip install schedule用法import scheduleimport time#引入schedule和timedef job(): print("Working in progress...")#定义一个叫job的函数,函数的功能是打印'I'm working...'#部署情况schedule.every(10).minutes.do(job) #部署每10分钟执行一次job()函数的任务schedule.every()原创 2022-02-17 16:04:45 · 142 阅读 · 0 评论 -
selenium-程序指挥浏览器
简介一个强大的python库,可以用它控制浏览器,做出打开、输入、点击等动作。优点:1、遇到复杂验证码,如12306网站时,selenium可以让人工介入2、爬取加密复杂的动态网页时,可以等所有动态网页加载完毕,将其当作一个静态网页进行爬取缺点:需要时间和资源安装方法pip install selenium # Windows电脑安装seleniumpip3 install selenium # Mac电脑安装seleniumselenium的脚本可以控制所有常见浏览器的操作,在使原创 2022-02-15 14:21:33 · 259 阅读 · 0 评论 -
代理
目录代理概念在爬虫中的应用代理破解封IP这种反爬机制。访问次数太多,访问过密过快,IP会被封。概念什么是代理?- 代理服务器。代理的作用?- 突破自身IP访问的限制。- 隐藏自身真实的IP代理相干网站:- 快代理- 西祠代理- www.goubanjia.com代理ip的类型:- https:应用到https对应的url中- http:应用到http对应的url中代理ip的匿名度:- 透明:服务器知道该次请求使用了代理,也知道请求对应的真实IP- 匿名:原创 2021-02-02 14:59:57 · 142 阅读 · 0 评论 -
爬虫之模拟登录--验证码+cookies+session
目录验证码识别概念模拟登录cookies概念处理方法session会话cookies的存储与读取存储读取代码示例验证码识别概念一种反爬机制。需要识别图片中的数据,用于模拟登录操作。识别验证码图片的操作:1、人工肉眼识别,不推荐2、第三方自动识别① 云打码 ()流程:1、将验证码图片进行本地下载2、调用平台提供的示例代码进行图片数据识别模拟登录爬取基于某些用户的数据。需求:对人人网进行模拟登录。进行登录操作,经分析发现:1、点击登录按钮会发起一个post请求2、post请求中会原创 2021-01-31 21:31:34 · 2352 阅读 · 0 评论 -
数据解析之xpath解析
目录xpath解析概念原理环境的安装如何实例化一个etree对象实战练习xpath解析概念最常用且最便捷高效、最通用的一种解析方式。原理1、实例化一个etree的对象,且将需要被解析的页面源码数据加载到该对象中2、调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的捕获环境的安装pip install lxml如何实例化一个etree对象导入:from lxml import etree;1、将本地的html文档中源码加载到etree对象中:- etree原创 2021-01-31 21:32:30 · 372 阅读 · 0 评论 -
数据解析之bs4
目录bs4数据解析的原理实战练习bs4只可以应用在python中bs4数据解析的原理1、实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2、通过调用BeautifulSoup对象相关的属性和方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象?导包 from bs4 import BeautifulSoup对象的实例化1、本地html文档中数据加载到该对象中:打开文件原创 2021-01-31 21:32:46 · 658 阅读 · 0 评论 -
数据解析之正则表达式
目录数据解析数据解析分类数据解析原理正则解析实战练习数据解析数据解析分类正则表达式bs4xpath数据解析原理想要获取的局部的内容存储在标签之间或这标签对应的属性中:1、进行标签定位;2、对标签之间或标签属性中存储的数据值进行提取正则解析正则表达式概念在线测试工具:regex101.com / regexr-cn.com正则练习:codejiaomang.com1、限定符? 前面的字符出现0次或1次* ≥0次+ ≥1次{m} 出现m次{m,} ≥m次{m,n} 出现原创 2021-01-31 21:32:54 · 506 阅读 · 0 评论 -
爬虫之request模块
目录request模块理论实战练习1、需求:爬取搜狗首页的页面数据2、需求:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)3、需求:破解百度翻译4、爬取肯德基地点5、爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据request模块理论爬虫中用于请求的模块有两种:1、urllib模块,较为古老,不再使用2、request模块,python中原生的一款基于网络请求的模块,比较简单高效request模块特点:1、功能强大2、简单便捷3、效率极高作用:模拟浏览器发起请求原创 2021-01-31 21:33:03 · 482 阅读 · 0 评论